I.3. Méthodologie et gestion des risques


I.3.1 Méthodologie
Nous ambitionnons de proposer une méthodologie commune à partager avec la communauté, pour un changement d’échelle des analyses des écrits scolaires et mobilisant des traitements automatiques.
• Réunir et harmoniser les pratiques existantes pour constituer un protocole de traitement généralisable: l’objectif du projet E-CALM étant de publier un grand corpus, qui permettra de fonder l’analyse des aspects procéduraux de l’écriture et contraster différentes situations didactiques et sociologiques, le travail s’appuiera sur les différents matériaux déjà réunis par les équipes partenaires et en harmonisera le traitement. Le caractère inédit du corpus réuni va permettre de croiser les méthodes de chaque laboratoire pour proposer un protocole d’analyse qui s’appuie sur les aspects les plus productifs de ces méthodes, dont le cumul permettra d’obtenir des résultats significatifs.
Le projet E-CALM analyse un corpus dont les particularités impliquent l’invention de protocoles de traitement spécifiques et destinés à être partagés. Pour chaque objet donnant lieu à une tâche analytique (orthographe / cohérence / interventions enseignantes), nous adopterons une méthodologie similaire :
– choix d’un sous-corpus ;
– élaboration des guides d’annotation qui seront éprouvés avant la procédure d’annotation elle-même (il est prévu un guide par objet annoté : orthographe / cohérence / interventions enseignant) ;
– annotation et évaluation-validation des annotations ;
– investigations par la linguistique outillée ;
– élaboration de modules d’investigation outillée des écrits spécifiques aux écrits d’élèves et d’étudiants.
• Construire les outils d’un changement d’échelle: il s’agit de passer de l’analyse qualitative d’un nombre restreint de situations singulières déjà maintes fois réalisée (cf. I.2), à la possibilité de mettre en place des analyses quantitatives permettant la mise au jour de variables transversales caractéristiques des faits scripturaux typiques de la production écrite selon différents genres d’écrit et catégories de scripteurs, selon des spécificités de l’établissement, de l’enseignant, de la situation didactique mise en œuvre, etc. La sélection d’items pertinents pour interpréter contextuellement les différences entre les écrits, initiée conjointement par Clesthia et Circeft (cf. 2.3.1), sera généralisée à l’ensemble des équipes. Les méthodes élaborées pour mener à bien ce projet feront appel aux techniques de la linguistique outillée et du TAL pour assister les différentes tâches de constitution et d’analyse. En particulier, le travail de conception d’une assistance à l’annotation entamé au Lidilem et CLLE sera généralisé à l’ensemble des sous-corpus provenant des autres équipes. La mise en commun des outils de traitement permettra de faire la synthèse des contraintes et d’élaborer une procédure et des conventions de transcription / annotation permettant de rendre analysables tous les aspects des écrits qui intéressent les laboratoires, y compris les investigations génétiques.
• Partager et valoriser les ressources et la méthodologie : tous nos choix méthodologiques sont guidés par une bonne connaissance des formats de diffusion utilisés par la communauté scientifique (licences et formats des corpus et des annotations, modules de TAL).


I.3.2 Risques
Le risque éventuel de recours concernant la diffusion en ligne est prévenu par la signature d’une autorisation préalable des ayant-droits et l’anonymisation des écrits et des entretiens avant publication.