Merci pour tour vos messages,
donc, c'est pas forcement con, c'était pas vraiment juste de dire cela
sans l'historique et l'ensemble des éléments.
J'ai donc essayé avec la config suivante :
Debian 8.0
texlive 2014.20141024-2, récupéré avec apt-get
pdftotext 0.26.5
J'ai compilé le fichier tex très simple en PJ avec pdflatex.
J'ai repris les ligne de Gilles, pour la configuration de
fontenc, inputenc et babel
puis j'ai fait un
pdftotext test.pdf
J'ai tous mis en PJ.
Avez-vous encore une idée qui pourrait ne pas générer d'erreur à la
sortie?
Merci d'avance.
Mathieu
Le 30/05/2015 17:13, Gilles Touzé a écrit :
C'est trop con de regrouper des caractères pour l'accessibilité ainsi
que pour le référencement web.
Mathieu
Ben oui, on peut dire que c'est trop con, mais un petit historique de
LaTeX premettra de comprendre pourquoi c'est ainsi : LaTeX utilise
comme moteur de composition de page le langage TeX créé par Donald
Knuth dans les années 70 ; à l'époque, il n'existait aucun programme
capable de faire de l'édition de qualité professionnelle, et Knuth
voulait composer lui-même le livre qu'il venait d'écrire, "The art of
programming" (de mémoire). Il voulait la même qualité que les
typographes manuels obtenaient depuis des siècles à la main. Or les
ligatures, en typographie, existent bel et bien, donc Knuth les a
incorporées à son programme TeX.
Depuis, la situation a beaucoup évolué, mais on a conservé les
ligatures, car il ne faut pas oublié que TeX ou LaTeX ne sont pas des
traitements de textes, mais bien des logiciels de composition
professionnels, aucun compromis n'est donc admis. Cet aspect rend un
peu ardu l'utilisation de LaTeX par moment, mais quel bonheur de
produire des documents irréprochables !
Pour ce qui est de l'accessibilité, il n'y a en fait pas de problème :
si tu tapes par exemple "ffi" dans ton texte source, tu accède au
contenu. Tu compile et obtient soir un dvi, soit un pdf : tu n'accède
plus directement au contenu, le pdf n'est pas lisible de toute façon
(sauf par un voyant, qui verra de belles ligatures) ; pour accéder au
contenu de ton pdf, tu est obligé d'utiliser un moyen quelconque qui
le transforme en texte ; j'ai fait l'essai avec pdftotext, et j'ai
bien récupéré les chaînes de caractère originales ("ffi" dans mon
exemple). Il faut seulement bien mettre les lignes d'en-tête que j'ai
indiquées dans un autre mail.
Gilles