[EGD-discu] Corpux, un générateur de corpus pour linux

[ Thread Index | Date Index | More ergodis.org/discussions Archives ]


[Désolé pour le doublon, posté originellement sur l'ancienne liste.]

Salut les gens,

J'ai commis un petit générateur de corpus, pour les gens sous GNU/linux.

Il est composé de deux programmes :

- corpux-keylogger : programme en C qui (comme son nom l'indique) enregistre les touches frappées sur le clavier, les transforme en caractères, et indique le délai entre deux frappes de touches, le tout application par application (un fichier de sortie par application), pour les applications sous environnement graphique X ;

- corpux-analyzer : script python qui analyse les fichiers générés par corpux-keylogger et sort les tables des fréquences de n-grammes, avec possibilité d'ignorer certains mots ; par défaut, prend en compte les espaces et les sauts de lignes.

Le premier est à faire tourner le plus longtemps possible, si possible en tâche de fond au démarrage de la session X, et le second seulement au moment où l'on veut les tables.

Pour l'installer :

$ git clone git://gitorious.org/corpux/corpux.git
$ cd corpux
$ make

Il y a quelques dépendances à installer préalablement, notamment python, gcc et libxi-dev. S'il y en a d'autres merci de me les signaler.

D'une manière générale, en cas de problème ou suggestion, contactez-moi par courriel en privé (inutile d'encombrer la liste avec ça, d'autant plus que je ne la suis presque pas, et j'attends d'avoir un peu de retours avant de mettre en place un outil de suivi de bugs).

Pour l'instant le code n'est peut-être pas très propre, j'ai fait ça vite fait. Il manque également la gestion des touches mortes et le calcul automatique du temps entre deux frappes pour considérer que c'est un digramme (pour l'instant 400 ms, c'est trop court). Je m'occuperai de tout ça un peu plus tard (mais toute bonne volonté est bienvenue).

Voilà, je vous encourage à l'utiliser le plus possible afin d'avoir un maximum de corpus statistiquement significatifs. :)

@+

Goulven.


--
Pour vous d�bonner, envoyez un message avec comme objet "unsubscribe"
vers discussions-REQUEST@xxxxxxxxxxx


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/