[EGD-discu] Corpux, un générateur de corpus pour linux |
[ Thread Index |
Date Index
| More ergodis.org/discussions Archives
]
[Désolé pour le doublon, posté originellement sur l'ancienne liste.]
Salut les gens,
J'ai commis un petit générateur de corpus, pour les gens sous GNU/linux.
Il est composé de deux programmes :
- corpux-keylogger : programme en C qui (comme son nom l'indique)
enregistre les touches frappées sur le clavier, les transforme en
caractères, et indique le délai entre deux frappes de touches, le tout
application par application (un fichier de sortie par application), pour
les applications sous environnement graphique X ;
- corpux-analyzer : script python qui analyse les fichiers générés par
corpux-keylogger et sort les tables des fréquences de n-grammes, avec
possibilité d'ignorer certains mots ; par défaut, prend en compte les
espaces et les sauts de lignes.
Le premier est à faire tourner le plus longtemps possible, si possible
en tâche de fond au démarrage de la session X, et le second seulement au
moment où l'on veut les tables.
Pour l'installer :
$ git clone git://gitorious.org/corpux/corpux.git
$ cd corpux
$ make
Il y a quelques dépendances à installer préalablement, notamment python,
gcc et libxi-dev. S'il y en a d'autres merci de me les signaler.
D'une manière générale, en cas de problème ou suggestion, contactez-moi
par courriel en privé (inutile d'encombrer la liste avec ça, d'autant
plus que je ne la suis presque pas, et j'attends d'avoir un peu de
retours avant de mettre en place un outil de suivi de bugs).
Pour l'instant le code n'est peut-être pas très propre, j'ai fait ça
vite fait. Il manque également la gestion des touches mortes et le
calcul automatique du temps entre deux frappes pour considérer que c'est
un digramme (pour l'instant 400 ms, c'est trop court). Je m'occuperai de
tout ça un peu plus tard (mais toute bonne volonté est bienvenue).
Voilà, je vous encourage à l'utiliser le plus possible afin d'avoir un
maximum de corpus statistiquement significatifs. :)
@+
Goulven.
--
Pour vous d�bonner, envoyez un message avec comme objet "unsubscribe"
vers discussions-REQUEST@xxxxxxxxxxx