Re: [fr-dvorak-bepo] Re: [EGD-discu] recherche fréquences

[ Thread Index | Date Index | More ergodis.org/discussions Archives ]





Le 10 juillet 2013 14:44, Julien Blanc <whity@xxxxxxx> a écrit :
Le 2013-07-10 14:38, Olivier Guéry a écrit :


Les mots ne sont pas conjugués dans le dictionnaire, non ? Il y
aurait une sur-représentations des infinitifs.

Dans un dictionnaire papier, non, mais dans un dictionnaire informatique (tel qu’utilisé par les correcteurs orthographiques), si. J’avais joué un peu à l’époque avec myspell pour générer des passphrase aléatoires, et le résultat n’était pas terrible, car systématiquement il me sortait des formes verabales alambiquées.

Ha, ben, oui, suis bête… j’avais oublié ça… Je n’ai jamais ouvert un dico informatique mais il me semblait que tous les mots n’y sont pas en fait il y a les racines et leus variantes, non un truc du type : <maison{s}> ou <march{e{s,r,nt},a{s,i{s,t,ent}},…}> non ? Hum, ça doit être potentiellement très tordu si c’est vraiment ça :)
 


 De toute façon, comme le dit Nicolas, ça ne sers à rien de faire
des statistiques de fréquence avec le dico.

Yep. Ce qu’il faut, c’est un bon corpus.

 
Toujours notre veille question. Et comme les corpus sont variables fonctions des utilisateurs… 
Que pensez-vous de prendre différents corpus assez « typés » (Proust, un forum, wikipédia, du code) et les comparer histoire de voir si les variations sont réellement notables (et à quel niveau (les lettres, les digrames, les trigrammes ?))  ou bien négligeables.

Olivier.
 
julien


--
Pour vous désabonner, envoyez un message avec comme objet "unsubscribe"
vers discussions-REQUEST@ergodis.org




--
[Message tapé sur un clavier Bépo : http://www.bepo.fr ]
http://soubresauts.net


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/