Re: [EGD-discu] Corpux, un générateur de corpus pour linux

[ Thread Index | Date Index | More ergodis.org/discussions Archives ]


Le 24/07/2013 08:11, Cedric Auger a écrit :
Le 24 juillet 2013 07:48, Olivier Guéry <nemolivier@xxxxxxxxx> a écrit :
Arrêtez moi si je me trompe mais un digramme n'est pas défini par le temps
entre deux frappes, mais par la non présence d'un espace entre deux
caractères, non ?


Euh, j'aurais plutôt dit par sa fréquence d'apparition dans le corpus (en
tout cas pour que ça ait un intérêt). Après, séparer les touches en groupes
aux espaces (et à la ponctuation) ainsi que mettre tout en bas de casse
s'impose je pense.
En tout cas j'ai des dotes sur l'utilité de mesurer le temps entre deux
touches.

Je ne suis pas d'accord avec la séparation sur les espaces et la ponctuation. Je m'attends à ce que des groupes tels que "s ", "e ", "es " ou les mêmes avec un "." au lieu de l'espace soient bien plus fréquents que d'autres, sinon les plus fréquents. C'est donc important au minimum pour la ponctuation pour un projet comme le bépo, et également pour l'espace voire la touche entrée pour un projet plus large (conception de clavier, par exemple).

De toute façon c'est configurable (on peut également rajouter d'autres touches : flèches, tabulation, etc., désactivées par défaut dans le script d'analyse mais actives dans le keylogger), et on peut faire en sorte de rendre ça encore plus configurable si besoin.

En revanche, je considère qu'il y a une sorte de relation de causalité entre les caractères d'un n-gramme. C'est ce qui m'a fait mettre en place cette coupure sur le temps entre deux frappes : un écart de dix minutes casse a priori toute causalité, les deux caractères ne sont pas liés — d'autant plus qu'avec la séparation par application, il est probable que d'autres applications aient été utilisées entretemps.

D'après les tests réalisés pendant l'écriture du programme, le temps entre deux frappes semble réparti en gros en une gaussienne à temps courts (moins d'une seconde) plus une très longue queue. J'ai pris 400 ms pour mes tests parce que c'était en gros la fin de la queue de la gaussienne pour moi, mais clairement c'est beaucoup trop court, il faudrait probablement l'augmenter à une dizaine de secondes (c'est-à-dire bien au-delà de la gaussienne), car la rédaction d'un texte passe par des pauses de réflexion pendant lesquelles on réfléchit aux prochains mots.


Le calcul du temps entre deux frappes doit de toute façon être mis en
regard avec la vitesse de frappe.

Tout à fait, c'est ce que j'entends par calcul automatique. Ceci étant dans un premier temps l'urgence est de collecter des données, la partie analyse ça peut attendre.

@+

Goulven.


--
Pour vous d�bonner, envoyez un message avec comme objet "unsubscribe"
vers discussions-REQUEST@xxxxxxxxxxx


Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/