Re: [fr-dvorak-bepo] Re: [EGD-discu] recherche fréquences |
[ Thread Index |
Date Index
| More ergodis.org/discussions Archives
]
On Tue, 09 Jul 2013 22:40:22 +0200
laurent <bodinux@xxxxxxx> wrote:
> J'ai fait des stats sur les trigrammes les plus fréquents dans les
> mots du dictionnaire. C'est à dire que tous les mots sont supposés
> avoir la même fréquence.
C’est malheureusement pas franchement le cas…
>
> Les stats sont sur la méthode des trigrammes sur svn si je me souviens
> bien.
>
> LaurentB
>
> Le vendredi 05 juillet 2013 à 09:31 +0200, Nicolas Chartier a écrit :
> > On Thu, 4 Jul 2013 20:36:55 -0400
> > Robin Moussu <robin.moussu@xxxxxxxxx> wrote:
> >
> > > Bonjour,
> > > Dans le cadre d’une future v2, ainsi que pour un projet perso je
> > > suis à la recherche de stats. J’en ai déjà une partie (J’ai
> > > notamment tous les liens présents dans le wiki bépo).
> > > Je suis donc à la recherche de stats brutes (à != a != A etc.), à
> > > la fois une liste exhaustive, et les fréquences associés.
> > > - lettres et et ponctuation seul
> > > - bigrammes et trigrammes (lettres seul, sans signes de
> > > ponctuation).
> > > - bigrammes incluant un signe de ponctuation (et « à- » dans «
> > > là-bas »)
> > > - syllabes
> > > - symboles, et bigrames de programmation (« -> » « ~ » etc)
> >
> > J’avais débuté un script pour dépiauter les dumps wikipédia, ça
> > permet d’avoir un volume de données conséquent, et j’avais adapté
> > les scripts utilisés initialement pour extraire les stats de
> > fréquence pures, bigramme, trigrammes pour qu’ils digèrent l’utf-8.
> >
> > Je sais pas si je l’ai mis sur le svn, faudra que je regarde mais
> > hui c’est un peu chargé…
> >
> > --
> > Nicolas
> >
>
>
--
Pour vous d�bonner, envoyez un message avec comme objet "unsubscribe"
vers discussions-REQUEST@xxxxxxxxxxx