I.2 Originalité et pertinence par rapport à l’état de l’art

I.2.1 Corpus d’écrits scolaires existants
Il n’existe pas encore de corpus d’apprenants en français langue maternelle tel que celui projeté : amplitude (de l’école élémentaire à l’université), variété des données (corpus écologiques et suscités), métadonnées permettant la contextualisation des tâches indispensable à l’analyse de l’écriture scolaire. Les Learner Corpora restent rares en Français Langue Maternelle, bien que leur constitution ait pris récemment un essor considérable (Andersen & al., 2010 ; Doquet, David, Fleury 2017 ; Jacques, Rinck 2017).
Le corpus que nous structurerons dans ce projet sera mis à disposition de la communauté à travers la plate-forme Ortolang. Il rejoindra le Corpus de référence du français constitué par le consortium CORLI (Corpus, Langue et Interaction) dont sont membres plusieurs participants du projet. Ce corpus sera outillé et assorti de métadonnées contextuelles et de l’ensemble des traces de l’écriture des textes.
L’écriture scolaire sera analysée comme un espace de co-énonciation (Culioli 1990) : d’abord, le contexte scolaire et la consigne scripturale contraignent fortement les productions ; ensuite, les interventions des enseignants sur les copies orientent la réécriture. Une des originalités de notre projet est justement d’observer les écrits comme produit de ces contraintes et d’en examiner les marques dans l’écriture elle-même.


I.2.2 Caractérisations de l’écriture scolaire
En-deçà des textes finaux, l’écriture elle-même a intéressé les chercheurs en linguistique et didactique depuis une trentaine d’année. Les travaux de Fabre-Cols (1990, 2002) ont initié la recherche sur la genèse des textes scolaires en appliquant aux brouillons d’élèves les méthodes d’investigation forgées par la génétique textuelle pour l’exploration des manuscrits d’écrivains (Grésillon 1994). À partir de corpus d’écriture enregistrée (dite en temps réel), Doquet (2011) a théorisé la rature comme la trace d’un bouclage méta-énonciatif (Authier-Revuz 1995) lors duquel le scripteur effectue un retour sur le déjà écrit dont il évalue la pertinence. L’étude de la genèse de textes d’élèves s’est appuyée tantôt sur des écrits de niveaux scolaires différents (Lamothe-Boré, 1998 ; Auriac, Gunnarsson-Largy 2013), tantôt sur des enregistrements de l’écriture électronique (Doquet, Leblay 2014), tantôt sur des productions en Français Langue Étrangère (Knapp 1997 ; Baptiste, Lumbroso, Woerly, 2015). La prise en compte du contexte scriptural est une constante de ces études : outre les situations d’écriture collaborative (de Gaulmyn et al. 2001) éventuellement médiée par ordinateur (Crinon, Marin 2010), l’intérêt pour l’écriture elle-même est associé à des travaux centrés sur les indices de la construction d’un « sujet écrivant » (Bucheton 1995, 2014) qui va s’inscrire dans une « communauté discursive » (Bernié 2002). A l’intersection des analyses de cohérence et des perspectives sociologiques, Bautier (1995) a mis en évidence des modes différenciés d’écriture chez les élèves en fonction des consignes et des genres de discours. Cette étude a également identifié des évolutions caractéristiques des fonctions et des usages du langage dans les écrits des collégiens, ainsi que les éléments différenciateurs et susceptibles de faire difficulté au lycée (Bautier 1997 ; Bautier, Rochex 1998).
Ces études mettent à contribution les apports de la génétique textuelle et de la psycho-sociologie du langage, avec une dimension didactique plus ou moins importante. L’inconvénient de ces travaux est qu’ils s’appuient souvent sur des corpus restreints, fermés car sans autorisation définissant leur utilisation et inexploitables du fait de leur format. Le projet E-CALM basera ses observations sur des données diffusables, regroupant à la fois des textes finaux et leurs brouillons, dans un format numérique exploitable. Ces textes seront systématiquement associés à des métadonnées contextuelles et des annotations au niveau des opérations d’écriture, permettant ainsi l’étude du contexte de production des textes ainsi que des traces de leur genèse.


I.2.3 Interventions des enseignants sur les copies
Peu abordé en formation d’enseignants, le geste professionnel de la correction de copie est un pivot de la réflexion des élèves sur leurs écrits (Fabre 1990 ; Doquet 2011 ; Bucheton 2014). Le groupe EVA (Évaluation des Écrits) de l’Institut National de la Recherche Pédagogique (Mas, Garcia-Debanc et al. 1991) avait mis en évidence l’instabilité de l’évaluation des copies et en particulier le flottement dans les critères de notation autres qu’orthographiques ; ce constat se retrouve de nos jours, par exemple dans la comparaison par Pilorgé (2008, 2010) des corrections d’une même copie par différents enseignants. Les éléments extralinguistiques jouent un rôle important dans la réception des écrits par les professeurs. Bourdieu et de Saint-Martin montraient dès 1975 que le jugement professoral valorise un langage conforme à des représentations socialement normées (Bourdieu, de Saint Martin 1975). Dans la même lignée, des études plus récentes ont montré que ces normes étaient corrélées à la posture de l’enseignant (Pilorgé 2008), ou encore que des écrits narratifs à l’école primaire faisaient l’objet d’évaluations et d’annotations socialement différenciées (Lahire 2008 ; Crinon 2011). Les recherches sur les scolarités des élèves de l’éducation prioritaire ont également fait état, à travers l’étude de bulletins trimestriels, d’appréciations genrées à forte tonalité prédictive (van Zanten 2009). Des approches de caractère historique montrent également que les évaluations des rédactions changent nettement selon l’idéologie à l’œuvre (Bishop 2005).
Les interventions des enseignants sur les copies sont généralement très précises et nombreuses lorsqu’il s’agit du niveau orthographique (Reuter 1984a, 1984b ; Masseron 1981 ; Halté 1984, 1989) dont la norme est fixée et connue des enseignants (Paveau, 2003 ; Lavieu-Gwozdz 2013 ; Van Beveren, Dumortier, Dispy 2013). Elles concernent également la cohérence textuelle (Charolles 1978) sur des critères que Rondelli (2010) a caractérisés comme reposant sur l’emploi des temps et les anaphores, qui constitueraient deux piliers d’une « proto-théorie de la cohérence » chez les enseignants. L’originalité de notre projet est de proposer à la fois une typologie des interventions enseignants, y compris non verbales (soulignements) et une analyse de leur efficience, c’est-à-dire des processus de réécriture que l’intervention a engendrée.


I.2.4 Études sur l’orthographe
Quoique bien documenté, l’enseignement de l’écriture, et plus particulièrement celui de l’orthographe du français, n’est pas complètement décrit du point de vue de son acquisition (Fayol, Jaffré 2014). À partir des années 1970 se sont développées des études sur les écrits des élèves, notamment les travaux de psychologues spécialisés dans l’acquisition du langage (Simon 1973), d’historiens de l’éducation (Chervel 1977 ; Furet, Ozouf 1977), de linguistes de l’écrit (Fabre 1990 ; Doquet 2011), et les recherches conduites à l’Institut National de la Recherche Pédagogique (groupe EVA 1991, 1996).
L’orthographe s’est imposée dès les années 1980, dans la continuité de Blanche-Benveniste et Chervel (1969) et de Catach (1980, 1995), comme un champ majeur de l’étude des écrits d’élèves. À partir des années 1990, plusieurs études ont mis au jour la baisse du niveau orthographique des élèves (MEN-DEP 1996 ; Manesse, Cogis 2007 ; Andreu, Steinmetz 2016). Elles montrent que ce sont les performances en orthographe grammaticale qui subissent la plus grande érosion et ce, quelles que soient les variables sociales prises en compte. Cette désaffection serait liée à une conjonction de facteurs : réduction des horaires de la discipline français, difficultés à organiser les enseignements de l’écriture, déficit de formation des enseignants, auxquels il faudrait ajouter l’évolution des pratiques d’écriture des élèves et étudiants, notamment sur des supports électroniques (David 2014 ; Penloup, Joannidès 2016). De fait, il semble qu’il faille viser une meilleure efficacité didactique pour cet apprentissage qui s’étend nécessairement sur de nombreuses années, de l’école élémentaire au lycée et sans doute au-delà.
Il apparait important de prolonger ces recherches en ciblant le domaine de la morphosyntaxe écrite qui présente des zones de plus grande insécurité orthographique, difficiles à maitriser dans le long terme. Ainsi, la morphographie verbale et les accords, comme la morphologie dérivationnelle, ont été étudiés selon trois approches complémentaires qui ont mis en lumière ces zones où se concentrent durablement les erreurs :
– la linguistique pour la description du système verbal du français (Le Goffic 1997), de la conjugaison des verbes (Meleuc, Fauchard 2000) et des systèmes orthographiques associés (Jaffré 2006) ;
– la psychologie cognitive pour des données essentiellement expérimentales concernant l’acquisition des formes et accords verbaux au présent et des homophonies verbo-nominales (Fayol, Largy 1992 ; Totereau, Barrouillet, Fayol, 1998), y compris la détection d’erreurs (Largy, Dédeyan, Hupet 2004) ; l’utilisation de régularités graphotactiques (Pacton et al. 2011) ; le recours à des informations morphologiques dans l’écriture des mots (Sénéchal, Basque, Leclaire 2006 ; Pacton, Deacon 2008 ; Pacton, Foulin, Casalis, Treiman 2013).
– la psycholinguistique pour la description des faits orthographiques associés à la sphère nominale et verbale (Jaffré, Brissaud 2006 ; Brissaud, Chevrot 2011 ; Brissaud, Negro, Fisher 2012 ; David, Dappe 2013) et à l’accord de l’adjectif (Brissaud 2015). Des études qualitatives ayant recours à la méthodologie des entretiens métagraphiques ont permis d’appréhender les raisonnements des élèves (Jaffré, Ducard 1996).
Ces travaux montrent que se posent aux élèves des problèmes d’une grande complexité, qui nécessitent un haut degré d’abstraction métalinguistique, des méthodologies mieux ajustées et un temps d’enseignement conséquent. Il en ressort en effet que les enseignants sont souvent démunis pour conduire des apprentissages orthographiques, par exemple pour aider leurs élèves à transférer les habiletés orthographiques construites lors d’exercices ritualisés vers des situations d’écriture de textes produits de façon autonome. Il conviendra dès lors de poursuivre ces travaux dans une perspective développementale élargie, à partir des corpus déjà constitués, pour les coordonner et les compléter afin de décrire longitudinalement les principaux problèmes résistant aux enseignements mis en œuvre, surtout quand ils nécessitent : i) une connaissance précise des formes allographiques des unités homophones, ii) une maitrise cohérente des procédures d’accords catégoriels (le nombre, le genre, la personne…), et iii) une distribution ajustée des morphèmes lexicaux et grammaticaux, qui restent majoritairement inaudibles.


I.2.5 Études sur la cohérence textuelle
Les recherches portant sur la cohésion textuelle et sur la cohérence discursive procèdent généralement à partir d’exemples construits ou de textes attestés produits par des experts. Les textes d’élèves présentent l’intérêt d’être « moins cohérents » que les textes habituellement analysés par les chercheurs en linguistique, et, à ce titre, leur étude a permis, il y a une quarantaine d’années, d’apporter un regard nouveau sur l’analyse de la cohérence (Charolles 1978), sur la thématisation et la progression thématique (Combettes, 1978) ou sur la structuration du récit (Fayol 1981). Mais les résultats n’ont pas été assez bien didactisés, en raison de la dominance de la perspective phrastique en grammaire et en didactique.
Plus récemment, des études exploratoires menées sur des productions écrites d’élèves d’école primaire et de collège (Masseron 2005 ; Garcia-Debanc et al. 2010 ; Garcia-Debanc, Bras 2016 ; Garcia-Debanc et al. 2017; Legallois, Lenepveu 2014) a permis de mettre au jour différents problèmes de cohésion textuelle : ambigüités référentielles, contradictions dans les chaines de référence, inférences importantes à effectuer par le lecteur pour rétablir une cohérence d’ensemble.
Dans ce projet, on cherchera à mettre en œuvre divers outils pour analyser les textes d’élèves. Ces outils s’inscrivent dans différents cadres théoriques qu’ils soient centrés sur les relations de cohésion (Halliday, Hasan 1976), sur les relations anaphoriques (Corblin 1995 ; Kleiber 1994 ; Cornish 1999 ; interalia), sur les relations de cohérence (Hume 1758 ; Hobbs 1983 ; Mann, Thompson 1988 ; Kehler 2002 ; Knott, Sanders 1998 ; Asher, Lascarides 2003), ou sur l’articulation entre les différents modes de relation et d’organisation discursive (Charolles 1995, 2006, Charolles, Péry-Woodley 2005, Ho-Dac, Péry-Woodley 2009 ; Ho-Dac et al. 2012 ; Péry-Woodley et al. 2017).
Les textes d’élèves seront étudiés du double point de vue des marques de cohésion employées et de la cohérence de l’interprétation que le lecteur d’un texte produit par un élève est capable de construire. Ce double point de vue permettra d’identifier des textes cohérents et cohésifs, mais aussi des textes cohésifs pouvant donner lieu à une interprétation peu cohérente ou présentant des incohérences locales, ou encore des textes relativement cohérents et économes en marqueurs de cohésion.
L’analyse des spécificités des textes d’élèves tirera partie des enseignements de l’expérience d’annotation discursive qui a abouti à la création de la ressource ANNODIS, corpus de textes en français écrit standard annoté selon différents niveaux d’analyses discursives (Projet ANNODIS financé par l’ANR (appel Corpus 2007-2010) – Partenaires : CLLE-ERSS (Toulouse), IRIT (Toulouse), GREYC (Caen) ; cf. Asher et al. 2017 ; Ho-Dac, Péry-Woodley 2014 ; Afantenos et al. 2012 ; Péry-Woodley et al. 2011).


I.2.6 Émergence du TAL dans l’analyse des écrits d’élèves
Depuis les années 1980, le TAL est étroitement associé à la linguistique de corpus (Habert, Nazarenko, Salem 1997 ; Kennedy 1998) par les méthodes et outils qu’il offre pour concevoir et exploiter de grandes masses de données. On trouve dans la littérature autour du TAL un ensemble de travaux connexes au traitement des écrits scolaires, parmi lesquels différentes recherches concernent l’apport du TAL au domaine de l’apprentissage des langues avec notamment les différentes approches du traitement de l’erreur décrites dans l’ouvrage de Heift, Schulze (2007). Pour le français, le projet Freetext (Granger, Vandeventer, Hamel 2001) mène un travail autour de la détection automatique d’erreurs basée sur le corpus d’apprenants FRIDA. Ce corpus est également au cœur du projet Exxelant (Antoniadis, Ponton, Zampa 2010) avec le développement d’un système d’interrogation portant à la fois sur les productions et les corrections.
Même si elle s’adresse le plus souvent à des scripteurs experts, la correction automatique de textes est également un domaine important du TAL proposant des approches variées (Kukich 1992) potentiellement intéressantes pour le traitement des écrits scolaires. Le traitement automatique d’écrits non normés est un domaine plus récent en TAL avec notamment les travaux autour de corpus SMS. Bien que spécifique, ce type de corpus présente des similarités avec les corpus scolaires, en particulier sur la segmentation en mots (Fairon, Klein, Paumier 2006). Toujours dans le domaine de ces écrits peu normés, signalons également le système d’étiquetage morphosyntaxique MElt (Denis, Sagot 2012) développé spécifiquement pour ce type d’écrits et notamment appliqué à des textes provenant de forums en ligne (Baranes 2012).
Toutefois, à l’exception de travaux autour de la dictée (Beaufort, Roekhaut 2011), ce n’est que depuis 2015 que le TAL s’intéresse au domaine des écrits scolaires avec les travaux du Lidilem dans le cadre du projet Scoledit (Wolfarth, Ponton, Brissaud 2016 ; Wolfarth, Ponton, Totereau 2017). Notre projet présente des avancées technologiques considérables en proposant des outils d’exploration et d’analyse textuelle tout en préservant l’intégrité linguistique des écrits.