Re: [EGD-discu] Corpux, un générateur de corpus pour linux |
[ Thread Index |
Date Index
| More ergodis.org/discussions Archives
]
Goulven Guillard <lecotegougdelaforce@xxxxxxx> a écrit :
>[Désolé pour le doublon, posté originellement sur l'ancienne liste.]
>
>Salut les gens,
>
>J'ai commis un petit générateur de corpus, pour les gens sous
>GNU/linux.
>
>Il est composé de deux programmes :
>
>- corpux-keylogger : programme en C qui (comme son nom l'indique)
>enregistre les touches frappées sur le clavier, les transforme en
>caractères, et indique le délai entre deux frappes de touches, le tout
>application par application (un fichier de sortie par application),
>pour
>les applications sous environnement graphique X ;
>
>- corpux-analyzer : script python qui analyse les fichiers générés par
>corpux-keylogger et sort les tables des fréquences de n-grammes, avec
>possibilité d'ignorer certains mots ; par défaut, prend en compte les
>espaces et les sauts de lignes.
>
>Le premier est à faire tourner le plus longtemps possible, si possible
>en tâche de fond au démarrage de la session X, et le second seulement
>au
>moment où l'on veut les tables.
>
>Pour l'installer :
>
>$ git clone git://gitorious.org/corpux/corpux.git
>$ cd corpux
>$ make
>
>Il y a quelques dépendances à installer préalablement, notamment
>python,
>gcc et libxi-dev. S'il y en a d'autres merci de me les signaler.
>
>D'une manière générale, en cas de problème ou suggestion, contactez-moi
>
>par courriel en privé (inutile d'encombrer la liste avec ça, d'autant
>plus que je ne la suis presque pas, et j'attends d'avoir un peu de
>retours avant de mettre en place un outil de suivi de bugs).
>
>Pour l'instant le code n'est peut-être pas très propre, j'ai fait ça
>vite fait. Il manque également la gestion des touches mortes et le
>calcul automatique du temps entre deux frappes pour considérer que
>c'est
>un digramme (pour l'instant 400 ms, c'est trop court). Je m'occuperai
>de
>tout ça un peu plus tard (mais toute bonne volonté est bienvenue).
>
>Voilà, je vous encourage à l'utiliser le plus possible afin d'avoir un
>maximum de corpus statistiquement significatifs. :)
Python2/Python3/Pas important?
--
Adhérent au Parti Pirate. <partipirate.org>
Envoyé depuis un logiciel libre. <hack-libre.org>
Texte écrit en Bépo. <bepo.fr>
Selon la nouvelle orthographe <orthographe-recommandee.info>
--
Pour vous d�bonner, envoyez un message avec comme objet "unsubscribe"
vers discussions-REQUEST@xxxxxxxxxxx