Re: [fr-dvorak-bepo] Re: [EGD-discu] recherche fréquences

[ Thread Index | Date Index | More ergodis.org/discussions Archives ]


Le mercredi 10 juillet 2013 15:25:38 Olivier Guéry a écrit :
> Le 10 juillet 2013 14:44, Julien Blanc <whity@xxxxxxx> a écrit :
> > Le 2013-07-10 14:38, Olivier Guéry a écrit :
> >  Les mots ne sont pas conjugués dans le dictionnaire, non ? Il y
> >  
> >> aurait une sur-représentations des infinitifs.
> > 
> > Dans un dictionnaire papier, non, mais dans un dictionnaire informatique
> > (tel qu’utilisé par les correcteurs orthographiques), si. J’avais joué un
> > peu à l’époque avec myspell pour générer des passphrase aléatoires, et le
> > résultat n’était pas terrible, car systématiquement il me sortait des
> > formes verabales alambiquées.
> 
> Ha, ben, oui, suis bête… j’avais oublié ça… Je n’ai jamais ouvert un dico
> informatique mais il me semblait que tous les mots n’y sont pas en fait il
> y a les racines et leus variantes, non un truc du type : <maison{s}> ou
> <march{e{s,r,nt},a{s,i{s,t,ent}},…}> non ? Hum, ça doit être
> potentiellement très tordu si c’est vraiment ça :)
> 
> >   De toute façon, comme le dit Nicolas, ça ne sers à rien de faire
> >> 
> >> des statistiques de fréquence avec le dico.
> > 
> > Yep. Ce qu’il faut, c’est un bon corpus.
> 
> Toujours notre veille question. Et comme les corpus sont variables
> fonctions des utilisateurs…
> Que pensez-vous de prendre différents corpus assez « typés » (Proust, un
> forum, wikipédia, du code) et les comparer histoire de voir si les
> variations sont réellement notables (et à quel niveau (les lettres, les
> digrames, les trigrammes ?))  ou bien négligeables.

Je pense que c’est la meilleure solution, mais si on prend le forum du Bépo 
c’est un peu limité comme cas… Mais au moins ça peut au moins nous montrer si 
la différence est énorme ou pas. Je crois que dans le passé on a vu que la 
différence est pas très grande pour certaines lettres et grande pour d’autres 
(notamment les majuscules parce qu’on cite beaucoup de nom propres sur 
Wikipédia).

-- 
Adhérent au Parti Pirate. <partipirate.org>
Envoyé depuis un logiciel libre. <hack-libre.org>
Texte écrit en Bépo. <bepo.fr>
Selon la nouvelle orthographe <orthographe-recommandee.info>

--
Pour vous d�bonner, envoyez un message avec comme objet "unsubscribe"
vers discussions-REQUEST@xxxxxxxxxxx


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/