Re: [CBLX] tesseract-ocr

[ Thread Index | Date Index | More lists.tuxfamily.org/carrefourblinux Archives ]


Jean-Philippe MENGUAL wrote on Sat, Apr 16, 2011 at 03:33:49AM +0200
> Bonjour,
> 
> J'ai personnellement testé tesseract il y a 1-2 semaines, pour
> réactualiser ma très mauvaise impression de 2008. Eh bien j'ai été
> agréablement surpris. Certes, il faut la feuille dans le bon sens, il
> est limité, mais j'observe qu'il donne un bien meilleur rendu.
> D'ailleurs j'ai pu lire 90% du contenu de tous les doc que j'ai essayés.
> J'en ai été surpris et content.

Excellente nouvelle !

> 
> Il faudrait aussi approfondir la façon d'entraîner l'application. Elle
> est complexe, mais des acharnés peuvent peut-être comprendre et
> vulgariser l'explication ou automatiser par une interface.

Un détail qui n'en est d'ailleurs pas un : il dispose de dictionnaires, 
en particulier un en français, qui permet d'affiner la reconnaissance.

Et en matière d'OCR, sur la squeeze, je remarque OCRopus qui
semblerait être l'OCR soutenu par Google qui a naturellement besoin de
ce genre d'opérateur pour indexer les images, pour peu qu'elles aient
du texte à reconnaître, bien entendu.

dom
--


---
--
   CarrefourBLinuX MailingListe
   Pour obtenir de l'aide, envoyez le sujet  help  à:
   carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
   Archives:
   http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/