Re: Convertion fichier .docx était: [CBLX] fichier.xlsx

[ Thread Index | Date Index | More lists.tuxfamily.org/carrefourblinux Archives ]


Pierre Lorenzon wrote on Thu, Jun 18, 2015 at 04:26:45AM +0200
> From: Dominique Asselineau <asseline@xxxxxxxxxxxxxxxxxxxx>
> Subject: Convertion fichier .docx était: [CBLX] fichier.xlsx
> Date: Wed, 17 Jun 2015 12:37:48 +0200
> 
> > Pierre Lorenzon wrote on Wed, Jun 17, 2015 at 05:17:51AM +0200
> >> 
> >>   En effet si le xlsx est comme le docx c'est du xml embalé et
> >>   compressé. Et paradoxalement c'est pas très difficile à
> >>   convertir. Mais c'est vrai que j'utilise deux outils
> >>   radicalement différent : catdoc pour le doc et xsltproc pour
> >>   le docx. Et la différence majeure c'est qu'avec le deuxième
> >>   on a complètement la main sur la feuille de style pour
> >>   contrôler la sortie.
> > 
> > Je viens d'explorer un .docx et je ne trouve pas de fichier .xsl
> > contenant la feuille de style.  Ou trouves-tu ça ?
> 
>   Je parlais d'une feuille de style qui est passée en paramètre
>   à xsltproc pour convertir du docx en LaTeX par exemple. Elle
>   a été faite par quelqu'un qui l'a postée sur le web
>   http://pastcounts.wordpress.com/2011/03/22/using-xsl-to-convert-docx-to-latex/
> 
> 	C'est vrai que ça fait quelque chose d'assez
> 	rudimentaire qui ne tient pas forcément compte de tous
> 	les détails de la mise en page du document docx. En
> 	particulier il se peut en effet qu'il y ait une feuille
> 	de style interne au document mais je ne suis jamais
> 	allé assez loin dans l'exploration des docx pour le
> 	savoir.

En effet, ça marche, et c'est très rudimentaire.  xsltproc est par
défaut fait pour transformer du XML en XML et lorsqu'on veut produire
autre chose en l'occurrence du LaTeX donc du texte, il faut le
préciser dans une directive <xsl:output> qui manque ici.  Ça ne peut
guère marcher pour du français puisqu'il manque le package LaTeX
inputenc pour indiquer l'encodage des caractères, accentués notamment.
Il manque aussi le paquet pour la typographie française.  Il semble
n'apparaître dans le code LaTeX produit aucune commande de mise en
page.  Dans les cas que j'ai regardés, peut-être que les docx ont été
composés « à l'oeil » et sans commande de structure justement.  On ne
retrouve donc dans le code LaTeX, que du texte en vrac.  Il y a bien
les commandes de mises en caractères gras mais pour la mise en page,
ça ne suffit pas.  Du coup, il serait illusoire de convertir ensuite
le LaTeX en PDF puis de faire un pdftotext -layout pour espérer
récupérer un document propre et à peu près conforme.  Disons que ça
aide à voir de quoi il s'agit.

> 	mais on peut parfaitement la modifier.

c(est juste mais ça n'est pas à la portée du premier utilisateur venu.
Il faut connaître le XSL et fort probablement le docx et là, c'est du
lourd.

dom

-- 

-- 
   CBLX - CarrefourBLinuX MailingListe 
   Pour obtenir de l'aide, envoyez le sujet  help  à: 
   carrefourblinux-request@xxxxxxxxxxxxxxxxxxx
   Archives: 
   http://listengine.tuxfamily.org/lists.tuxfamily.org/carrefourblinux
   ou 
   http://www.mail-archive.com/carrefourblinux@xxxxxxxxxxxxxxxxxxx/


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/