Re: [EGD-discu] recherche fréquences

[ Thread Index | Date Index | More ergodis.org/discussions Archives ]


On Thu, 4 Jul 2013 20:36:55 -0400
Robin Moussu <robin.moussu@xxxxxxxxx> wrote:

> Bonjour,
> Dans le cadre d’une future v2, ainsi que pour un projet perso je suis
> à la recherche de stats. J’en ai déjà une partie (J’ai notamment tous
> les liens présents dans le wiki bépo).
> Je suis donc à la recherche de stats brutes (à != a != A etc.), à la
> fois une liste exhaustive, et les fréquences associés.
> - lettres et et ponctuation seul
> - bigrammes et trigrammes (lettres seul, sans signes de ponctuation).
> - bigrammes incluant un signe de ponctuation (et « à- » dans « là-bas
> »)
> - syllabes
> - symboles, et bigrames de programmation (« -> » « ~ » etc)

J’avais débuté un script pour dépiauter les dumps wikipédia, ça permet
d’avoir un volume de données conséquent, et j’avais adapté les scripts
utilisés initialement pour extraire les stats de fréquence pures,
bigramme, trigrammes pour qu’ils digèrent l’utf-8.

Je sais pas si je l’ai mis sur le svn, faudra que je regarde mais hui
c’est un peu chargé…

-- 
Nicolas

--
Pour vous d�bonner, envoyez un message avec comme objet "unsubscribe"
vers discussions-REQUEST@xxxxxxxxxxx


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/