coolbrother@xxxxxxxxxx wrote on Sat, Sep 17, 2011 at 06:59:34PM +0200
Salut, voici une version avec pico2wave également.
pico2wave est nettement mieux que espeak,
c'est une bonne solution pour des messages informatiques.
Mais la voix féminine est nettement moins clair que celle de kali niveau
diction,
c'est probablement le timbre de la voix plus doux ou émoussé (comme on
veut) qui donne cet effet.
justement c'est parce qu'on entend les diphones que l'on est moins obligé
de se concentrer sur le texte.
En fait, kali a été prévu également pour de la lecture littéraire,
ce qui serait difficile
avec svox, car trop lissée, même intonation à chaque virgule, et à chaque
point,
et qualité d'échantillonage faible,
ce qui fait que l'on entend très fortement l'effet robotique derrrrière
les mots.
Je pense plutôt que c'est certaines consonnes qui donnent
effectivement l'effet robot, le r et le j notamment. Sinon
l'intonation n'a pas beaucoup de dynamique sans que ça paraisse
vraiment artificiel. Il faut voir si tout ceci n'est pas réglable.
Il y a une librairie, peut-être l'API permet de régler ça mais il
faut mettre les mains dans le cambouis comme on dit.
Je suppose qu'il y a très peu de samples pré-enregistrées, mais beaucoup
d'algos pour varier, combiner les échantillons, et ça s'entend.
ça utilise la technique des champs de Markov, probablement pour le
lissage, enlever l'effet diphone (gluglutant).
De plus avec Kali, on peut varier la pause entre les mots,
à ce propos avec Kali comment ce fait-il qu'il y a des pauses
injustifiées au milieu des phrases ? Par ex. dès le début après le
mot « conçu ».
tandis qu'ici
elle se précipite parfois sur certains mots, quitte à les manger.
Un bel atout de svox, est la gestion de plusieurs langues qui la rend très
utile.
Reste à voir si elle est assez réactive dans des applis comme des lecteurs
d'écran, ou avec speech-dispatcher,
La production du wave est vraiment rapide, même avec une phrase longue
(au rebond de la touche entrée sur ma machine).
car le coup d'utiliser espeak et mbrola avec speech-dispatcher (lecture du
fichier wav avec aplay)
n'était pas viable (rop lent), surtout quand on tapait du texte.
Conclusion :
comme à l'image de linux, un utilitaire pour une utilisation.
J'ai tout de même remarqué, pour avoir un peu travaillé sur la
question dans les années 80, à une époque où les synthèses étaient
moins bonnes que maintenant mais pas aussi mauvaises que ça, que le
côté subjectif était important. Les défauts de la synthèse était
presque un atout... Il est possible que ce soit encore le cas,
surtout pour ceux qui font causer leur synthèse à toute vitesse.
A+
dom
--
---