Re: [CBLX] Paps, UTF/ISO

[ Thread Index | Date Index | More lists.tuxfamily.org/carrefourblinux Archives ]


Le Mon, 2 Nov 2009 19:41:30 +0100
Aldo <info@xxxxxxxxxxxx> écrivait:

> question:
> quelqu'un a-t-il un document txt récent AVEC des accents dedant, qu'il
> pourrait convertir en .ps par paps:
> si ça marche alors le bug est en amont, cad probab dans l'ocr.
> Si c'est dns paps alors faut que je le rapporte pour que ça soit fixé dans
> une version ultérieure.
> 
Bonsoir,
je viens d'essayer de convertir un texte récent (en utf8)  par paps : pas de pbs.
je joins les 2 fichiers
cordialement
erwin

-----------------------------------------
configuration de sphinx4 pour le français 
-----------------------------------------

après récupération de l'archive "french_f0.tgz" (http://sourceforge.net/projects/cmusphinx/files/) 
du LIUM (Laboratoire d'Informatique de l'Université du Maine (http://www-lium.univ-lemans.fr/)
il faut modifier la structure des répertoires pour la rendre conforme à la structure adoptée 
par l'Université Carnegie-Mellon et copier dans ces répertoires les fichiers nécessaires.

sphinx4_fr0.jar
   |
   +- edu
       |
       +- cmu
           |
           +- sphinx
               |
               +- model
                   |
                   + acoustic
                   	  |
                   	  + fr0
                      	 |
                      	 | - model.props
                      	 | - Model.java
                      	 | - ModelLoader.java
                      	 | - PropertiesDumper.java
                      	 | - LICENCE
                      	 | - README
                      	 |
                      	 + - cd_continuous
                      		  |  
                      		  | - means
                      		  | - variances
                      		  | - mixture_weights
                      		  | - transition_matrices
                      		  |
                         + - dict
                      		  |  
                      		  | - frenchWords62k.dic
                      		  | - frenchFillers.dic
                      		  |
                         + - etc
                          	  |
                          	  | - french_f0.5725.mdef

---------
à noter :
---------

model.props est nommé dans l'archive originale du LIUM "am.props" 
il faut le renommer en "model.props" et ajouter les 2 lignes suivantes :
	dataLocation = cd_continuous
	modelDefinition = etc/french_f0.5725.mdef
	
les 2 dictionnaires doivent être enregistrés en utf-8 !

les trois fichiers sources java sont à récupérer dans les sources de Sphinx4
copiés et modifiés de façon à refléter la structure:
	"package edu.cmu.sphinx.model.acoustic.fr0;"
ils doivent être compilés dans le répertoire d'installation.

pour terminer, il ne reste plus qu'à générer le fichier "sphinx4_fr0.jar"

Attachment: lisez-moi.ps
Description: PostScript document



Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/