Re: [EGD-discu] Corpux, un générateur de corpus pour linux

[ Thread Index | Date Index | More ergodis.org/discussions Archives ]


Goulven Guillard <lecotegougdelaforce@xxxxxxx> a écrit :
>[Désolé pour le doublon, posté originellement sur l'ancienne liste.]
>
>Salut les gens,
>
>J'ai commis un petit générateur de corpus, pour les gens sous
>GNU/linux.
>
>Il est composé de deux programmes :
>
>- corpux-keylogger : programme en C qui (comme son nom l'indique) 
>enregistre les touches frappées sur le clavier, les transforme en 
>caractères, et indique le délai entre deux frappes de touches, le tout 
>application par application (un fichier de sortie par application),
>pour 
>les applications sous environnement graphique X ;
>
>- corpux-analyzer : script python qui analyse les fichiers générés par 
>corpux-keylogger et sort les tables des fréquences de n-grammes, avec 
>possibilité d'ignorer certains mots ; par défaut, prend en compte les 
>espaces et les sauts de lignes.
>
>Le premier est à faire tourner le plus longtemps possible, si possible 
>en tâche de fond au démarrage de la session X, et le second seulement
>au 
>moment où l'on veut les tables.
>
>Pour l'installer :
>
>$ git clone git://gitorious.org/corpux/corpux.git
>$ cd corpux
>$ make
>
>Il y a quelques dépendances à installer préalablement, notamment
>python, 
>gcc et libxi-dev. S'il y en a d'autres merci de me les signaler.
>
>D'une manière générale, en cas de problème ou suggestion, contactez-moi
>
>par courriel en privé (inutile d'encombrer la liste avec ça, d'autant 
>plus que je ne la suis presque pas, et j'attends d'avoir un peu de 
>retours avant de mettre en place un outil de suivi de bugs).
>
>Pour l'instant le code n'est peut-être pas très propre, j'ai fait ça 
>vite fait. Il manque également la gestion des touches mortes et le 
>calcul automatique du temps entre deux frappes pour considérer que
>c'est 
>un digramme (pour l'instant 400 ms, c'est trop court). Je m'occuperai
>de 
>tout ça un peu plus tard (mais toute bonne volonté est bienvenue).
>
>Voilà, je vous encourage à l'utiliser le plus possible afin d'avoir un 
>maximum de corpus statistiquement significatifs. :)

Python2/Python3/Pas important?


-- 
Adhérent au Parti Pirate. <partipirate.org>
Envoyé depuis un logiciel libre. <hack-libre.org>
Texte écrit en Bépo. <bepo.fr>
Selon la nouvelle orthographe <orthographe-recommandee.info>

--
Pour vous d�bonner, envoyez un message avec comme objet "unsubscribe"
vers discussions-REQUEST@xxxxxxxxxxx


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/