Re: [CBLX] problème de layout avec un manuel en PDF

[ Thread Index | Date Index | More lists.tuxfamily.org/carrefourblinux Archives ]


Dans un fichier pdf chaque page est une image, comme si tu prenais une photo de
cette page, ceci quelle que soit la disposition du texte sur la page (sur une ou
plusieurs colones).

Reconnaître une image signifie dans ce cas "convertir cette photo de la page en
texte".

Donc ça doit fonctionner pour ton fichier. CQFD.

Didier

Le 02/02/2022 à 18:15, Aldo a écrit :
> C intéressant! mais dans mon pdf c la partie layout qui pose problème, pas (heureusement) la partie image.
> 
> Aldo.
> 
> On Wed, Feb 02, 2022 at 05:13:06PM +0100, Didier Spaier wrote:
>> Salut Aldo,
>>
>> Dans le menu: Fichier -> Ouvrir (ou Ctrl+O) puis sélectionne le fichier.
>>
>> Une fenêtre surgit et te demande "Reconnaître toutes les images) réponse oui.
>>
>> Même si tu réponds non tu peux le faire après: dans le menu Reconnaître (Alt+R):
>> cela affiche une liste déroulante avec des options dont "Reconnaître toutes les
>> images".
>>
>> La reconnaissance prends un certain temps selon la taille du fichier.
>>
>> Tu peux ensuite enregistrer le fichier texte (Ctrl+S)
>>
>> si tu presse F5 Lios le lit texte à haute voix en utilisant espeakup.
>>
>> Tu peux aussi le convertir en fichier audio: Outil -> Convertisseur Audio
>> Cela ouvre un fenêtre de réglages tu peux choisir le format (wav ou mp3).
>> Cela s'appuie sur speech-dispatcher.
>>
>> Dans le menu Paramètres -> Général tu peux choisir le synthétiseur et la langue
>> pour produire le fichier audio, un peu come dans le menu Orca préférences -> voix
>>
>> Explore le menu pour en savoir plus.
>>
>> Bon après-midi,
>> Didier
>>
>> Le 02/02/2022 à 16:12, Aldo a écrit :
>>> Salut Didier.
>>>
>>> J'essaye de comprendre ta suggestion, mais ici LIOS est un outil OCR, dit
>>> intelligent et blindfriendly, mais es-ce dire qu'on peut lui refiler le pdf
>>> sans plus, sans passer par un scannerou la version papier ?
>>>
>>> Aldo. 
>>>
>>> ### 
>>> Package: lios
>>> Architecture: all
>>> Version: 2.7.2-1
>>> Priority: extra
>>> Section: universe/graphics
>>> Origin: Ubuntu
>>> Maintainer: Ubuntu Developers <ubuntu-devel-discuss@xxxxxxxxxxxxxxxx>
>>> Original-Maintainer: Samuel Thibault <sthibault@xxxxxxxxxx>
>>> Bugs: https://bugs.launchpad.net/ubuntu/+filebug
>>> Installed-Size: 507
>>> Depends: python3:any, python3-gi, gir1.2-gtk-3.0, gir1.2-gst-plugins-base-1.0, gir1.2-gstreamer-1.0, gir1.2-vte-2.91, python3-sane, python3-speechd, tesseract-ocr, imagemagick, espeak, poppler-utils, python3-enchant, aspell-en, python3-gi-cairo
>>> Recommends: gnome-icon-theme
>>> Suggests: cuneiform
>>> Filename: pool/universe/l/lios/lios_2.7.2-1_all.deb
>>> Size: 168344
>>> MD5sum: 6a3b2dade1f73afd7a168dc5c8294d44
>>> SHA1: f0240fc90242bdacf2c53aa096457e531e41a017
>>> SHA256: 7abcd7b77845b0a20e975324b1ea9c2e9d78c5cab297caffd35b811e7dcd6c82
>>> Homepage: http://sourceforge.net/projects/lios/
>>> Description-en: Linux intelligent OCR solution
>>>  Lios provides a graphical interface on top of the Cuneiform and
>>>  Tesseract OCR backends to make OCR processing easier for impaired users,
>>>  with full autorotation, brightness optimization, rectangle selection,
>>>  audio feedback, etc.
>>> Description-md5: 6a462e32cc7c1cae32b05744de9c1bc4
>>> ### 
>>>
>>> On Wed, Feb 02, 2022 at 01:11:52PM +0100, Didier Spaier wrote:
>>>> Bonjour Aldo,
>>>>
>>>> Lios fonctionne très bien ici.
>>>>
>>>> En plus il peut lire le texte et l'enregitrer en .wav
>>>>
>>>> Bonne journée,
>>>> Didier
>>>>
>>>> Le 02/02/2022 à 12:45, Aldo a écrit :
>>>>> Bonjour. 
>>>>>
>>>>> j'essaye de convertir en txt le pdf d'un manuel d'utilisation d'une table de
>>>>> mixage (TASCAM Model 12 pour pas la citer :-) ): 
>>>>> pdftotext ou pdftohtml font ça +/- bien, 
>>>>> euh cad que le manuel est en colonnes et parfois des bouts de phrase de la
>>>>> colonne de droite s'intercallent dans la suite "logique" du texte, me
>>>>> faisant perdre le fil.
>>>>> Question:
>>>>> peut-on défaire cette structure et obtenir par une commande donnée que le
>>>>> texte suive son cours sans layout particulier, je pensais à l'option -raw de
>>>>> pdftotext mais p-e que je me tompes ?
>>>>> (je travailel donc bien en ligne de commande, pas sous LibreOffice).
>>>>>
>>>>> Merci à l'avance pour vos bons conseils!
>>>>>
>>>>> Aldo.
>>>>>
>>>>
>>>> -- 
>>>>    CBLX - CarrefourBLinuX MailingListe 
>>>>    Pour obtenir de l'aide, envoyez le sujet  help  à: 
>>>>    carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
>>>>    Archives: 
>>>>    http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux
>>>>    ou 
>>>>    http://www.mail-archive.com/carrefourblinux@xxxxxxxxxxxxxxxxxxx/
>>>>
>>>
>>
>> -- 
>>    CBLX - CarrefourBLinuX MailingListe 
>>    Pour obtenir de l'aide, envoyez le sujet  help  à: 
>>    carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
>>    Archives: 
>>    http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux
>>    ou 
>>    http://www.mail-archive.com/carrefourblinux@xxxxxxxxxxxxxxxxxxx/
>>
> 

-- 
   CBLX - CarrefourBLinuX MailingListe 
   Pour obtenir de l'aide, envoyez le sujet  help  à: 
   carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
   Archives: 
   http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux
   ou 
   http://www.mail-archive.com/carrefourblinux@xxxxxxxxxxxxxxxxxxx/


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/