Re: [CBLX] document pdf

[ Thread Index | Date Index | More lists.tuxfamily.org/carrefourblinux Archives ]


On Sat, Oct 12, 2013 at 11:50:20AM +0200, Dominique Lambert wrote:
> Bonjour,
> Dominique et Philippe, vous m'avez répondu de manière à m'aider. Je viens
> d'essayer avec pdftohtml, et là, ça a fonctionné. Seulement, je me suis
> aperçu qu'il s'agissait d'une photo et, qu'il n'y avait pas de texte.
> Pdftohtml m'a sorti 2 fichiers. Un avec une .jpg et un autre avec .html.
> Dans le fichier .html apparaît :
> [document jpg]. Je ne pourvais évidemment pas le savoir.

Attention, avec pdftohtml tu as toujours plusieurs fichiers, vu que le but
est de redistiler le tout en texte + images s'i la lieu; il se fait
malheureusemenet qu'ici en effet le pdf ne contenait QUE du contenu scanné
en graphique, en image donc.
Donc peu importe que tu tentes de convertir avec l'un ou l'autre, le
résultat sera toujours soit un document blanco soit comme ici un fichier
d'index ***ind.html + un fichier .jpg
Seul un scan avec un outil hardware genre Clear Reader ou Reporter permet de
lire le contenu vu que le logiciel fais de la reconnaissance de caractères.

Si tu sait scanner sous LInux et que tu as un OCR, possible que tu puisses
arriver au même résultat; mais si tu as un Reporter autant l'utiliser, ça
ira plus vite!

Aldo. 


-- 
== 
   CarrefourBLinuX MailingListe 
   Pour obtenir de l'aide, envoyez le sujet  help  à: 
   carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
   Archives: 
   http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/