| [EGD-discu] Corpux, un générateur de corpus pour linux | 
[ Thread Index | 
Date Index
| More ergodis.org/discussions Archives
] 
[Désolé pour le doublon, posté originellement sur l'ancienne liste.]
Salut les gens,
J'ai commis un petit générateur de corpus, pour les gens sous GNU/linux.
Il est composé de deux programmes :
- corpux-keylogger : programme en C qui (comme son nom l'indique) 
enregistre les touches frappées sur le clavier, les transforme en 
caractères, et indique le délai entre deux frappes de touches, le tout 
application par application (un fichier de sortie par application), pour 
les applications sous environnement graphique X ;
- corpux-analyzer : script python qui analyse les fichiers générés par 
corpux-keylogger et sort les tables des fréquences de n-grammes, avec 
possibilité d'ignorer certains mots ; par défaut, prend en compte les 
espaces et les sauts de lignes.
Le premier est à faire tourner le plus longtemps possible, si possible 
en tâche de fond au démarrage de la session X, et le second seulement au 
moment où l'on veut les tables.
Pour l'installer :
$ git clone git://gitorious.org/corpux/corpux.git
$ cd corpux
$ make
Il y a quelques dépendances à installer préalablement, notamment python, 
gcc et libxi-dev. S'il y en a d'autres merci de me les signaler.
D'une manière générale, en cas de problème ou suggestion, contactez-moi 
par courriel en privé (inutile d'encombrer la liste avec ça, d'autant 
plus que je ne la suis presque pas, et j'attends d'avoir un peu de 
retours avant de mettre en place un outil de suivi de bugs).
Pour l'instant le code n'est peut-être pas très propre, j'ai fait ça 
vite fait. Il manque également la gestion des touches mortes et le 
calcul automatique du temps entre deux frappes pour considérer que c'est 
un digramme (pour l'instant 400 ms, c'est trop court). Je m'occuperai de 
tout ça un peu plus tard (mais toute bonne volonté est bienvenue).
Voilà, je vous encourage à l'utiliser le plus possible afin d'avoir un 
maximum de corpus statistiquement significatifs. :)
@+
Goulven.
--
Pour vous d�bonner, envoyez un message avec comme objet "unsubscribe"
vers discussions-REQUEST@xxxxxxxxxxx