Re: [CBLX] LaTeX et lecture pdf

[ Thread Index | Date Index | More lists.tuxfamily.org/carrefourblinux Archives ]


Le 28/05/2015 17:12, Dominique Asselineau a écrit :
Mathieu Barbe wrote on Thu, May 28, 2015 at 04:48:40PM +0200
Salut Philippe,

Le 28/05/2015 11:22, Philippe Delavalade a écrit :
Bonjour.

Le jeudi 28 mai à 11:04, Mathieu Barbe a écrit :
Salut,
j'ai rédigé un document pro en LaTeX et j'ai deux trois questions sur votre
manière d'utiliser cette outils:
* Utilisez-vous bien TeXlive?
Oui.

* Je me sers d'Emacs et de AucTeX pour m'assister dans mon écriture,
sûrement vous aussi?
Bof, rarement. Auctex n'est même plus installé sur ma machine actuelle.

* Arrivez-vous à lire des pdf sous Linux?
Oui. Utilisation de pdftotext mais ça ne remplace pas un voyant pour faire
la dernière vérification...

* Comment arrivez-vous à lire le résultat final de votre document?
Donc, pdftotext.

Pour ma part, j'ai essayé:
pdflatex qui me donne un pdf puis pdftotext, mais beaucoup d'erreur de
conversion!
Qu'entends-tu par « erreur de conversion » ?

C'est pas des erreurs d'encodages
par exemple le mots configuration donne
con guration
je crois qu'il n'aime pas trop les double f ou la lettre f puis i.

En effet, là je ne sais pas si c'est récupérable.  Le problème est que
pour certaines polices, des lettres à chasse courte comme les f, i et
l, peuvent être regroupées au niveau de la fonte.  Il me semble qu'en
Unicode, ces caractères doubles sont répertoriés et pourraient donc
être traités mais il faut approfondir.

dom

Selon mes souvenirs, TeX utilise des fontes où les ligature (i.e. les combinaisons "fi", "fl", "ffi", "ffl") ou encore "---", bref, certaines suites de caractères produisent un caractère spécial de la fonte utilisée à ce moment. De toutes façons, la gestion par LaTeX des polices de caractères est tellement compliquée que des packages sont dédiés à leur gestion automatiques. Pour pouvoir écrire en français, ce qui est ton cas je pense, il faut vraiment dans tous les en-têtes de tes documents insérer :

\usepackage[utf8]{inputenc}        %CODAGE UTF8 DES CARACTERES
\usepackage[T1]{fontenc}           %CESURE DES MOTS EN FRANCAIS
\usepackage[francais]{babel}       %STYLE FRANCAIS

La dernière n'est pas obligatoire, il existe d'ailleurs une alternative (je crois).

Je viens de compiler avec ces trois lignes les différentes ligatures pour voir, avec pdflatex, et le pdf obtenu est parfaitement lisible ; j'ai essayé 4 lecteurs différents : evince, okular, imagemagick et the gimp ; tous lisent ces caractères spéciaux sans problème (je n'ai pas essayé acrobat reader, dont le nom linux est "acroread", car je l'ai viré récemment de mon ordinateur, mais il doit fonctionner également à mon avis.

Je n'ai pas essayé la conversion de dvi en pdf (dvitopdf).

De plus, l'opération inverse avec pdftotext redonne bien le texte en entrée (texte brut, sans aucun formatage).

Ceci dit, le problème des pdf déborde largement le cadre de ces petits essais : en effet, un texte dans un pdf peut très bien être en fait une image, et dans ce cas, aucun logiciel ne sera capable de le lire, à moins de faire une reconnaissance de caractère auparavant dans le document. Sous linux, l'opération reste assez aléatoire, car les OCR ne sont pas nombreux, ni très développés. Par ailleurs, je ne sais pas si leurs interfaces sont accessibles ou non, il faudrait faire des tests.

Avec Windows, les OCR sont en général fournis avec un scanner, mais il existe quelques logiciels excellents ("Fine reader" ou "Omnipage"). Pour linux, je te recommande la page : https://doc.ubuntu-fr.org/ocr
qui fait assez bien le tour de la question.

Gilles

--
CBLX - CarrefourBLinuX MailingListe Pour obtenir de l'aide, envoyez le sujet help à: carrefourblinux-request@xxxxxxxxxxxxxxxxxxx Archives: http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux ou http://www.mail-archive.com/carrefourblinux@xxxxxxxxxxxxxxxxxxx/

Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/