Re: [EGD-discu] recherche fréquences

[ Thread Index | Date Index | More ergodis.org/discussions Archives ]


On Fri, 5 Jul 2013 05:20:47 -0400
Robin Moussu <robin.moussu@xxxxxxxxx> wrote:

> Il ne me semble pas que tu ai fait de stats sur les syllabes en
> revanche, est-ce que quelqu’un aurais un site les listant ? (les
> syllabes écrites, pas phonétiques)

J’ai pas fait de stats sur les syllabes.
Je pense qu’il doit y avoir moyen de jouer avec un dictionnaire qui
gère les coupures de mot.
Par exemple ici avec le package libreoffice-fr j’ai le fichier
hyph_fr.dic (hyph pour hyphenation) qui pourrait nous aider.


> Le 5 juillet 2013 03:31, Nicolas Chartier <chartier.n@xxxxxxx> a
> écrit :
> 
> > On Thu, 4 Jul 2013 20:36:55 -0400
> > Robin Moussu <robin.moussu@xxxxxxxxx> wrote:
> >
> > > Bonjour,
> > > Dans le cadre d’une future v2, ainsi que pour un projet perso je
> > > suis à la recherche de stats. J’en ai déjà une partie (J’ai
> > > notamment tous les liens présents dans le wiki bépo).
> > > Je suis donc à la recherche de stats brutes (à != a != A etc.), à
> > > la fois une liste exhaustive, et les fréquences associés.
> > > - lettres et et ponctuation seul
> > > - bigrammes et trigrammes (lettres seul, sans signes de
> > > ponctuation).
> > > - bigrammes incluant un signe de ponctuation (et « à- » dans «
> > > là-bas »)
> > > - syllabes
> > > - symboles, et bigrames de programmation (« -> » « ~ » etc)
> >
> > J’avais débuté un script pour dépiauter les dumps wikipédia, ça
> > permet d’avoir un volume de données conséquent, et j’avais adapté
> > les scripts utilisés initialement pour extraire les stats de
> > fréquence pures, bigramme, trigrammes pour qu’ils digèrent l’utf-8.
> >
> > Je sais pas si je l’ai mis sur le svn, faudra que je regarde mais
> > hui c’est un peu chargé…
> >
> > --
> > Nicolas
> >
> 
> 
> 


--
Pour vous d�bonner, envoyez un message avec comme objet "unsubscribe"
vers discussions-REQUEST@xxxxxxxxxxx


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/