Lire autrement les écrits des élèves
Un corpus disponible pour la recherche et la formation

Rendre visibles en grand nombre des écrits scolaires et permettre leur exploration outillée pour agir sur l’enseignement de l’écriture

Facteur déterminant de la réussite scolaire et universitaire comme de l’intégration sociale en France, le rapport à l’écrit reste à explorer du point de vue des compétences en acte des scripteurs, des aspects linguistiques de leurs productions et des facteurs contextuels qui les contraignent. À partir d’un corpus d’écrits d’élèves et d’étudiants rendu accessible sur une plateforme dédiée, le projet E-CALM a permis de caractériser certaines compétences scripturales (orthographe et cohérence textuelle) et de mieux comprendre la manière dont les enseignants, par leurs interventions sur les copies, orientent l’écriture, afin d’étayer l’accompagnement de la réécriture de l’école à l’université.

Le corpus E-CALM, aujourd’hui repéré par l’Inspection Générale des Lettres comme une ressource importante pour les enseignants, a été utilisé en formation et dans des dispositifs de recherche-action permettant d’exercer une lecture analytique et objective des écrits scolaires, pour créer des dispositifs de travail innovants basés sur les compétences des élèves. L’outillage technologique construit pour ce projet est disponible pour la communauté des chercheurs en Traitement Automatique des Langues.

Un protocole de transcription-annotation des écrits et un outillage d’investigation inédits, adaptés au caractéristiques du matériau

Comme l’ensemble des écrits non standards, les écrits scolaires posent à l’analyse automatique des problèmes d’identification des formes qui nécessitent une normalisation. Le travail d’exploration, qui a pris en compte notamment les interventions des enseignants sur les copies et les opérations de réécriture des élèves, a nécessité la création d’un protocole de transcription permettant une recherche critériée selon l’auteur des opérations scripturales, le nombre de versions du texte et la temporalité de l’écriture. Les domaines d’investigation (orthographe, cohérence textuelle, interventions des enseignants) ont fait l’objet d’annotations spécifiques, adaptées aux questions de recherche et créées pour le projet, compatibles avec la TEI (Text Encoding Initiative) qui est la convention de transcription la plus largement utilisée.

Sur la question orthographique, la normalisation a été associée à un logiciel spécifique de comparaison des formes qui permet de classer les erreurs de graphie selon qu’elles provoquent ou pas une altération de la valeur phonique du mot, de manière à rendre compte de l’assimilation de la phonographie, indicateur crucial de l’acquisition de l’écrit. Un autre logiciel a été créé pour séparer les bases lexicales des désinences des verbes et des adjectifs, de manière à effectuer des recherches distinctes.

Résultats majeurs des analyses

L’orthographe des verbes connait une amélioration continue du CP à l’université ; les difficultés persistent avec les consonnes muettes.

Le jugement de cohérence des enseignants à la lecture d’un écrit scolaire, réputé personnel et fluctuant, est globalement congruent avec les résultats de l’analyse automatique.

La correction de copies continue d’opposer l’orthographe et la textualité, deux dimensions pourtant complémentaires et mobilisées conjointement lors de l’écriture.

Production scientifique

  • Un corpus de plus d’un million de mots, constitué de 4500 écrits scolaires transcrits et annotés, disponible pour l’analyse outillée et déposé sur Ortolang et la plateforme E-CALM.
  • Une amélioration de la TEI qui permet de coder les spécificités des écrits scolaires et les guides correspondants (transcription et annotation de la cohérence).
  • Deux programmes permettant l’extraction de faits orthographiques : phonographie et séparation base/désinence.
  • Des apports à la théorie de mesure de la cohérence SDRT : intégration de nouveaux critères de cohérence présents dans les écrits scolaires.

Informations factuelles

La recherche E-CALM associe les laboratoires Clesthia (Sorbonne Nouvelle), Circeft (Paris 8 Vincennes Saint-Denis), CLLE (Toulouse Jean Jaurès) et Lidilem (Grenoble-Alpes). Le travail a duré 60 mois, entre janvier 2018 et décembre 2022. L’ensemble a été coordonnée par Claire Doquet (Sorbonne Nouvelle, Université de Bordeaux) avec les responsables des équipes locales : Elise Vinel (Circeft), Mai Hodac (CLLE), Marie-Paule Jacques (Lidilem).


Télécharger le document complet