Convertir avex un OCR était: [CBLX] document pdf

[ Thread Index | Date Index | More lists.tuxfamily.org/carrefourblinux Archives ]


Dominique Lambert wrote on Sat, Oct 12, 2013 at 11:50:20AM +0200
> Bonjour,
> Dominique et Philippe, vous m'avez répondu de manière à m'aider. Je viens
> d'essayer avec pdftohtml, et là, ça a fonctionné. Seulement, je me suis
> aperçu qu'il s'agissait d'une photo et, qu'il n'y avait pas de texte.
> Pdftohtml m'a sorti 2 fichiers. Un avec une .jpg et un autre avec .html..

Si le .jpg, un JPEG donc, est censé contenir du texte, lancer un
logiciel OCR dessus.  Il faut probablement le convertir en .pnm avant
avec convert du paquet imagemagick par ex.  Pour l'OCR, il y a bien
gocr ou ocrad mais pas terrible.  Voir ce que sait faire
tesseract-ocr.

dom
--

--
=   CarrefourBLinuX MailingListe
   Pour obtenir de l'aide, envoyez le sujet  help  à:
   carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
   Archives:
   http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/