Re: Convertir avec un OCR était: [CBLX] document pdf

[ Thread Index | Date Index | More lists.tuxfamily.org/carrefourblinux Archives ]


On Sat, Oct 12, 2013 at 04:25:43PM +0200, Dominique Asselineau wrote:
> Dominique Lambert wrote on Sat, Oct 12, 2013 at 11:50:20AM +0200
> > Bonjour,
> > Dominique et Philippe, vous m'avez répondu de manière à m'aider. Je viens
> > d'essayer avec pdftohtml, et là, ça a fonctionné. Seulement, je me suis
> > aperçu qu'il s'agissait d'une photo et, qu'il n'y avait pas de texte.
> > Pdftohtml m'a sorti 2 fichiers. Un avec une .jpg et un autre avec .html.
> 
> Si le .jpg, un JPEG donc, est censé contenir du texte, lancer un
> logiciel OCR dessus.  Il faut probablement le convertir en .pnm 

Je viens d'essayer mais ça ne fonctionne pas: il faut convertir en tif, donc
convert ton_source.jpg destination.tif
puis tesseract destination.tif sortie.txt
Et je pense que si tu as le pack tesseract-ocr-fra avec l'option -l fr ça
devrait tenir compte que t usouhaites faire reconnaître en Français.

Aldo. 

-- 
== 
   CarrefourBLinuX MailingListe 
   Pour obtenir de l'aide, envoyez le sujet  help  à: 
   carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
   Archives: 
   http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/