Re: [fr-dvorak-bepo] Re: [EGD-discu] recherche fréquences |
[ Thread Index |
Date Index
| More ergodis.org/discussions Archives
]
J'ai fait des stats sur les trigrammes les plus fréquents dans les mots
du dictionnaire. C'est à dire que tous les mots sont supposés avoir la
même fréquence.
Les stats sont sur la méthode des trigrammes sur svn si je me souviens
bien.
LaurentB
Le vendredi 05 juillet 2013 à 09:31 +0200, Nicolas Chartier a écrit :
> On Thu, 4 Jul 2013 20:36:55 -0400
> Robin Moussu <robin.moussu@xxxxxxxxx> wrote:
>
> > Bonjour,
> > Dans le cadre d’une future v2, ainsi que pour un projet perso je suis
> > à la recherche de stats. J’en ai déjà une partie (J’ai notamment tous
> > les liens présents dans le wiki bépo).
> > Je suis donc à la recherche de stats brutes (à != a != A etc.), à la
> > fois une liste exhaustive, et les fréquences associés.
> > - lettres et et ponctuation seul
> > - bigrammes et trigrammes (lettres seul, sans signes de ponctuation).
> > - bigrammes incluant un signe de ponctuation (et « à- » dans « là-bas
> > »)
> > - syllabes
> > - symboles, et bigrames de programmation (« -> » « ~ » etc)
>
> J’avais débuté un script pour dépiauter les dumps wikipédia, ça permet
> d’avoir un volume de données conséquent, et j’avais adapté les scripts
> utilisés initialement pour extraire les stats de fréquence pures,
> bigramme, trigrammes pour qu’ils digèrent l’utf-8.
>
> Je sais pas si je l’ai mis sur le svn, faudra que je regarde mais hui
> c’est un peu chargé…
>
> --
> Nicolas
>
--
Pour vous d�bonner, envoyez un message avec comme objet "unsubscribe"
vers discussions-REQUEST@xxxxxxxxxxx