Re: Convertir avec un OCR était: [CBLX] document pdf |
[ Thread Index |
Date Index
| More lists.tuxfamily.org/carrefourblinux Archives
]
On Sat, Oct 12, 2013 at 04:25:43PM +0200, Dominique Asselineau wrote:
> Dominique Lambert wrote on Sat, Oct 12, 2013 at 11:50:20AM +0200
> > Bonjour,
> > Dominique et Philippe, vous m'avez répondu de manière à m'aider. Je viens
> > d'essayer avec pdftohtml, et là, ça a fonctionné. Seulement, je me suis
> > aperçu qu'il s'agissait d'une photo et, qu'il n'y avait pas de texte.
> > Pdftohtml m'a sorti 2 fichiers. Un avec une .jpg et un autre avec .html.
>
> Si le .jpg, un JPEG donc, est censé contenir du texte, lancer un
> logiciel OCR dessus. Il faut probablement le convertir en .pnm
Je viens d'essayer mais ça ne fonctionne pas: il faut convertir en tif, donc
convert ton_source.jpg destination.tif
puis tesseract destination.tif sortie.txt
Et je pense que si tu as le pack tesseract-ocr-fra avec l'option -l fr ça
devrait tenir compte que t usouhaites faire reconnaître en Français.
Aldo.
--
==
CarrefourBLinuX MailingListe
Pour obtenir de l'aide, envoyez le sujet help à:
carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
Archives:
http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux