Re: [CBLX] Qu'en pensez-vous ?

[ Thread Index | Date Index | More lists.tuxfamily.org/carrefourblinux Archives ]


Salut, voici une version avec pico2wave également.
pico2wave est nettement mieux que espeak,
c'est une bonne solution pour des messages informatiques.
Mais la voix féminine est nettement moins clair que celle de kali niveau
diction,
justement c'est parce qu'on entend les diphones que l'on est moins obligé
de se concentrer sur le texte.
En fait, kali a été prévu également pour de la lecture littéraire,
ce qui serait difficile
avec svox, car trop lissée, même intonation à chaque virgule, et à chaque
point,
et qualité d'échantillonage faible,
ce qui fait que l'on entend très fortement l'effet robotique derrrrière
les mots.
Je suppose qu'il y a très peu de samples pré-enregistrées, mais beaucoup
d'algos pour varier, combiner les échantillons, et ça s'entend.
De plus avec Kali, on peut varier la pause entre les mots, tandis qu'ici
elle se précipite parfois sur certains mots, quitte à les manger.
Un bel atout de svox, est la gestion de plusieurs langues qui la rend très
utile.
Reste à voir si elle est assez réactive dans des applis comme des lecteurs
d'écran, ou avec speech-dispatcher,
car le coup d'utiliser espeak et mbrola avec speech-dispatcher (lecture du
fichier wav avec aplay)
n'était pas viable (rop lent), surtout quand on tapait du texte.

Conclusion :
comme à l'image de linux, un utilitaire pour une utilisation.

A bientôt:
Sam

> Bonjour,
>
> En matière de synthèse de parole, n'a-t-on pas essayé la voix de
> pico2wave ?  Certes elle n'est pas libre mais tout de même fournie en
> paquet Debian dans la catégorie non-free justement.  La voix que tu
> nous a fait écouter est clairement meilleure que celle de Mbrola mais
> elle a le même défaut que beaucoup de synthèses, à savoir :
> « gluglutante », on entend les transitions de diphones.  Celle de
> pico2wave est « lissée ».  C'est une voix féminine malgré tout plus
> difficile à traiter.  Il faut juste vérifier si les temps de traitement
> sont acceptables, apparemment oui à ce que j'ai essayé.
>
> A+
>
> dom
>
> coolbrother@xxxxxxxxxx wrote on Sat, Sep 17, 2011 at 03:21:36PM +0200
>> >   Si c'était pluggable dans festival .... sans trop de travail
>> >   peut-être .... Mais j'ai du mal à me convaincre que pour moi
>> >   le jeu en vaille la chandelle. Ben ouais je fais la fine
>> >   bouche ...
>>
>> Oh Pierre quand même, doucement, là t'abuse.
>> C'est vraiment faire la fine bouche.
>> la diction, la prosodie, l'analyse syntaxique de cette synthèse n'a rien
>> avoir avec festival et mbrola tout de même.
>> Et pour l'intégrateur, pourquoi sortir des chars d'assault comme emacs,
>> ou
>> festival,
>> il ne faut pas grand chose, juste une centaine de ligne en python fera
>> très bien
>> l'affaire.
>> En fait je vais juste recoder en python un extrait de mon script
>> "delire"
>> en bash qui faisait très bien son boulot.
>> Et par la suite un module de speech-dispatcher permettra de standardiser
>> tout ça.
>>
>> Bon, c'est vrai qu'on t'a demandé ton avis, et que tu le donnes
>> généreusement.
>> Mais quand même sois un peu plus modéré parfois !
>> Et surtout plus objectif !
>>
>> C'est marrant, car ce matin en me réveillant je me suis dit :
>> tiens, Pierre doit être malade, car il n'a pas encore critiquer la démo,
>> et il n'a pas encore dit que emacs était mieux !
>> Je suis content de voir que tu es en parfaite santé !
>>
>> A bientôt:
>> Sam
>>
>>
>>
>>
>> >
>> >
>> > Salut,
>> >
>> > C'est vrai que c'est esthétiquement un peu plus abouti que
>> > mbrola par exemple. Sauf que les fichiers de démo de mbrola
>> > donnent à peu près la même impresion. Tout simplement parce
>> > qu'ils les ont préprocessé avec un outil d'intonation. Bon ici
>> > l'outil est intégré très bien. Mais il faut bien avouer que ça
>> > me laisse un peu de glace. Ca reste sûrement encore du son 8bit
>> > (peut-être 16) avec une fréquence d'échantillonage sans doute
>> > assez faible. Et puis cette voix qui traîne avec une espèce
>> > d'effet d'écho c'est finalement assez désagréable. Tout ça pour
>> > que la voix décrive une courbe somme toute assez artificielle
>> > .... Il faut bien dire que l'intonation est une chose à
>> > laquelle je suis assez peut sensible pour une synthèse
>> > vocale. Car avec tout le mal qu'il se donne un ordinateur reste
>> > un ordinateur et finalement c'est encore plus ridicule quand il
>> > essaye dimiter les humains.
>> >
>> > En revanche ce qui à mes oreilles fait la qualité d'un outil
>> > vocal c'est sa réactivité. Sur plusieurs points : pouvoir
>> > s'adapter à divers contextes de travail, pouvoir avoir un débit
>> > suffisant pour qu'on ne perde pas trois plombes à lire deux
>> > mots, pouvoir être interrompue à volonté et sans délais pour
>> > pouvoir substituer au message en cours un message de plus
>> > grande importance.
>> >
>> > Ca ça ne se voit pas dans un fichier de démo. Et en fait ça
>> > dépend aussi de l'outil intégrateur.
>> >
>> >
>> >
>> > From: coolbrother@xxxxxxxxxx
>> > Subject: [CBLX] Qu'en pensez-vous ?  Date: Fri, 16 Sep 2011
>> > 18:55:20 +0200 (CEST)
>> >
>> >> ------=_20110916185520_68399
>> >> Content-Type: text/plain; charset="iso-8859-1"
>> >> Content-Transfer-Encoding: quoted-printable
>> >>
>> >> Salut, voici un aper=E7u de deux voix de la synth=E8se kali.
>> >> =E7a se passe en ligne de commande, donc c'est brute de pomme,
>> >> c'est pourquoi il fait une pause =E0 chaque fin de ligne.
>> >> Je ferai plutard une interface qui agence bien les lignes avant de
>> les
>> >> envoyer =E0 la synth=E8se.
>> >
>> >   C'est ce que je disais plus haut. Après il faut intégrer
>> >   ... Je te signale à toute fin utile que des outils
>> >   intégrateurs ça existe .... festival speech-dispatcher ou
>> >   même emacs.
>>
>> >
>> >
>> >
>> >
>> >> Mais, =E7a vous donne d=E9j=E0 une bonne id=E9e.
>> >
>> >   Si c'était pluggable dans festival .... sans trop de travail
>> >   peut-être .... Mais j'ai du mal à me convaincre que pour moi
>> >   le jeu en vaille la chandelle. Ben ouais je fais la fine
>> >   bouche ...
>> >
>> >
>> >
>> >
>> >> Et s'il vous pla=EEt, c'est sous alsa, en utf-8.
>> >
>> >   C'est la moindre des choses non ?
>> >
>> >   Pierre
>> >
>> >
>> >
>> >
>> >> Si si, j'y tiens !
>> >>
>> >> A bient=F4t:
>> >> Sam
>> >>
>> >>
>> >
>> > ---
>> > --
>> >    CarrefourBLinuX MailingListe
>> >    Pour obtenir de l'aide, envoyez le sujet  help  à:
>> >    carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
>> >    Archives:
>> >    http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux
>> >
>> >
>>
>>
>>
>> ---
>> --
>>    CarrefourBLinuX MailingListe
>>    Pour obtenir de l'aide, envoyez le sujet  help  à:
>>    carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
>>    Archives:
>>    http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux
>>
>
> --
> +--------------------------------o--------------------------------------------+
> | P-mail:                        | E-mail:
>    |
> |   TELECOM ParisTech - Dep. TSI |
> Dominique.Asselineau@xxxxxxxxxxxxxxxxxxxx |
> |   Dominique Asselineau         | Phone: (33/0) 1 45 81 78 91
>    |
> |   46, rue Barrault             |   Fax: (33/0) 1 45 81 37 94
>    |
> |   75634 PARIS Cedex 13         |
>    |
> | France                         |
>    |
> +--------------------------------o--------------------------------------------+
>
> ---
> --
>    CarrefourBLinuX MailingListe
>    Pour obtenir de l'aide, envoyez le sujet  help  à:
>    carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
>    Archives:
>    http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux
>
>

Attachment: gpl2_pico2wave.ogg
Description: audio/ogg



Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/