Re: [ostorybook-dev] JOpenDocument

[ Thread Index | Date Index | More lists.tuxfamily.org/ostorybook-dev Archives ]


Le 10/09/2021 à 14:49, Jean Rébillat a écrit :
> Je te laisse d'abord regarder pour parser les .odt... tuy trouveras peut-être des astuces qui m'ont échappées.
> 
> J'en ai eu pour 10 mn avec les docx pour trouver le même nombre de caractères que Word (et LibreOffice trouve pareil). Pour l'ODT, je ne parviens pas à converger. A noter pour les ODT : Word et LibreOffice ne donnent pas le même nombre de caractères pour le même fichier...

Finalement c'est encore plus simple avec ODT. Il m'a fallu moins de deux
heures pour obtenir le résultat escompté. En plus je récupère même les
notions de liste et de niveau de chapitre (les <H1> <H2> etc. du HTML),
mais sans la distinction liste numérotée et liste à puce. Je vais
continuer à étudier la chose pour récupérer le maximum d'informations de
mise en forme.

Pour ce qui est du décompte en nombre de mots et nombre de caractères
j'ai réussi à mettre au point un algorithme qui restitue le même
résultat que ce soit avec un DOCX et un ODT. Ceci dit le calcul est une
approximation, puisque, par exemple, les espaces multiples sont ignorés.

-- 
FaVdB
Il reste encore chez lui, pour se protéger et protéger les autres
He still stays at home, to protect himself and others

-- 
oStorybook5 dev


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/