Re: [CBLX] tesseract-ocr

[ Thread Index | Date Index | More lists.tuxfamily.org/carrefourblinux Archives ]


Salut les gars, juste pour dire que j'étais en retard de plusieurs bouquins
à lire,
et donc j'ai voulus utiliser un OCR pour remédier à tout ça.
Et donc, récemment j'ai comparer plusieurs OCR dont Tesseract et Abby
Finereader.
Je peux vous dire que Abby finereader laisse tesseract loin derrière.
Certes, tesseract est libre et gratuit, mais il n'est vraiment pas prêt
pour un non voyant.
Peut-être qu'un mal-voyant peut s'en sortir, mais bon ...
Abby Finereader est en ligne de commande, il y a une version de
démo pour une centaine de pages,
et la version complète pour linux coûte 149 euros pour 100 000 pages, ce
qui est raisonnable.
Maintenant le problème que je rencontre c'est qu'à force de scanner à tour
de bras, mon scanner HP est tombé en pane, et pour trouver un scanner
récent avec Sane, bon courage !
Mais sinon, je le redis Abbyy finereader et tesseract, c'est le jour et la
nuit pour un non-voyant !
Car le mal-voyant saura dans quel sens mettre la page, peut plus ou moins
comparer et corriger les quelques lettres et mots que tesseract ne voit
pas, alors que finereader a déjà pas mal de paramètres prévu pour le
non-voyant comme inverser les couleurs.
Exemple pour transformer une image.jpg en texte :
# abbyyocr -ii -adb -adii -rl French -recc -if sample1.jpg -tet UTF8 -pem
ImageOnText -pfpr original -of sample1.txt
-rl pour la langue,
-tet pour le format avec des accents
-ii pour inverser l'image.

A bientôt:
Sam

> Bsoir Jean-Philippe:
>
> On Sat, Apr 16, 2011 at 03:33:49AM +0200, Jean-Philippe MENGUAL wrote:
>> J'ai personnellement testé tesseract il y a 1-2 semaines, pour
>> réactualiser ma très mauvaise impression de 2008. Eh bien j'ai été
>> agréablement surpris. Certes, il faut la feuille dans le bon sens,
>
> Dommage que Linux n'apprend jamais bien vite les "bonnes" choses des deux
> autres O S pas libres, des choses qui ailleur sont déjà
> off-topic/ready-and-done depuis dix, parfois ving ans !
> Mais l'essentiel et la bonne nouvelle c que ça progresse.
>
>>il
>> est limité, mais j'observe qu'il donne un bien meilleur rendu.
>> D'ailleurs j'ai pu lire 90% du contenu de tous les doc que j'ai essayés.
>
> Super!
>
>> J'en ai été surpris et content.
>>
>> Il faudrait aussi approfondir la façon d'entraîner l'application. Elle
>> est complexe, mais des acharnés peuvent peut-être comprendre et
>> vulgariser l'explication ou automatiser par une interface.
>
> Et tu dois utiliser une syntaxe complexe ou ajouter pas mal de params pour
> appliquer l'OCR ou c'est suffisant que de lancer
> tesseract-ocr avec_un_nom_de_fichier.mmm ?
> Et tu appliques l'ocr sur un fichier de quel type (tiff, pnm, png, jpg,
> ps,
> pdf, doc) ?
>
> Merci d'avance.
>
> ald0:~$
>
>
> ---
> --
>    CarrefourBLinuX MailingListe
>    Pour obtenir de l'aide, envoyez le sujet  help  à:
>    carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
>    Archives:
>    http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux
>
>



---
--
   CarrefourBLinuX MailingListe
   Pour obtenir de l'aide, envoyez le sujet  help  à:
   carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
   Archives:
   http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/