Le Projet

Durée du projet : 42 mois
Date de fin : juin 2021

I.          Contexte, positionnement et objectif(s) de la proposition

Les enquêtes PISA (OCDE 2016) montrent depuis dix ans la particularité de la France concernant le poids de l’origine sociale sur les inégalités entre élèves (cf. également CNESCO 2016) ; elles montrent également le faible niveau des élèves dans des tâches d’écriture complexes, à un moment où les attendus de la maitrise de l’écrit littératié dans les apprentissages prend de plus en plus d’importance. Pourtant la production écrite est pointée par de récentes enquêtes comme trop peu travaillée à l’école et au collège (Claus et al. 2013 ; Goigoux et al. 2016) et la réalité des performances à l’écrit des élèves et des étudiants est encore approximativement cernée, faute de données exploitables et disponibles à tous les niveaux de la scolarité. Notre projet vise à décrire avec précision, grâce à des outils d’analyse textuelle, (1) ces performances tout au long de la scolarité et jusqu’au Master, et (2) les attentes des enseignants en termes de normes linguistiques et langagières, en vue de soutenir la formation professionnelle des enseignants sur l’accompagnement et l’évaluation des écrits. Ce projet s’appuie sur et inclut la publication en open access d’un vaste corpus de référence d’écrits d’apprenants assorti de métadonnées contextuelles et d’outils de traitement qui permettront ensuite d’autres investigations de la part d’équipes extérieures.

I.1.        Objectifs et hypothèses scientifiques

  • Objectif 1 : structurer et mettre à disposition de la communauté scientifique un vaste corpus d’écrits d’élèves et d’étudiants

Les équipes du projet ont déjà recueilli un matériau considérable rassemblé en deux types de corpus :

– Productions écologiques : Ecriscol, Clesthia (David, Doquet 2016) = 1390 écrits et leurs brouillons, du primaire au baccalauréat, en cours d’annotation et balisage XML TEI ; Littératie avancée, Lidilem (Jacques, Rinck 2017) = 330 écrits d’étudiants, en ligne, balisage XML TEI.

– Productions suscitées par la recherche : Scoledit, Lidilem (Wolfarth et al. 2016) = longitudinal CP-CM2, 3365 écrits, balisage XML ; Resolco, CLLE (Garcia-Debanc, Bras 2016) = 400 écrits, de l’école à l’université, consigne de résolution de problèmes de cohérence/cohésion.

L’enjeu est de poursuivre l’harmonisation des traitements entamée en 2014 pour diffuser un corpus enrichi.

  • Objectif 2 : caractériser les écrits d’élèves et d’étudiants et les attentes des enseignants du point de vue de l’acquisition de l’orthographe et de la cohérence, dans des analyses sociologiquement contextualisées.

L’orthographe et la cohérence sont des points nodaux résistant à l’acquisition et privilégiés lors de l’évaluation des copies par les enseignants. La méthodologie commune d’analyse permettra d’étudier ce qui est maitrisé vs ce qui reste à acquérir aux différents niveaux de l’apprentissage, ainsi que les écarts interindividuels sur : (1) la morphosyntaxe écrite, (2) la cohérence et la cohésion textuelles. Le croisement des résultats permettra de caractériser l’évolution des compétences orthographiques, textuelles et discursives des rédacteurs des textes, selon les contextes (sociologique, didactique et pédagogique) de production.

  • Objectif 3 : étudier les modalités de l’écriture dans les avant-textes (plans, notes, brouillons) et les textes, notamment à travers l’influence réciproque des écrits remis et des interventions des enseignants

La comparaison de différentes versions d’un même texte permettra d’observer :

– les interventions des correcteurs, classées selon les composantes linguistiques concernées et la forme qu’elles prennent (soulignement, commentaires, etc.) ;

– les opérations de modification des textes, considérées selon leur degré d’aboutissement, leur place dans la chronologie de l’écriture et leur articulation à des interventions des enseignants.

En croisant les informations sur les performances des élèves et les réécritures suscitées ou non par les interventions des enseignants, cette analyse alimentera la formation à une didactique de la réécriture.

  • Hypothèses :
  1. La langue écrite des élèves et des étudiants peut être décrite comme intégrant les normes et les procédés scripturaux de différents niveaux : orthographe, morphosyntaxe, cohésion/cohérence et textualité.
  2. Les ratures, en tant qu’indicateurs du travail des scripteurs sur leur texte en cours d’écriture, permettent de repérer des éléments propices à un enseignement efficient.
  3. Les variations dans les performances sont liées aux variations des contextes sociaux, didactiques et pédagogiques (rapports à l’écriture, usages de l’écrit scolaire, variations interindividuelles).

I.2.        Originalité et pertinence par rapport à l’état de l’art

  Les noms des membres du projet sont en gras.

I.2.1 Corpus d’écrits scolaires existants

Il n’existe pas encore de corpus d’apprenants en français langue maternelle tel que celui projeté : amplitude (de l’école élémentaire à l’université), variété des données (corpus écologiques et suscités), métadonnées permettant la contextualisation des tâches indispensable à l’analyse de l’écriture scolaire. Les Learner Corpora restent rares en Français Langue Maternelle, bien que leur constitution ait pris récemment un essor considérable (Andersen & al., 2010 ; Doquet, David, Fleury 2017 ; Jacques, Rinck 2017).

Le corpus que nous structurerons dans ce projet sera mis à disposition de la communauté à travers la plate-forme Ortolang. Il rejoindra le Corpus de référence du français constitué par le consortium CORLI (Corpus, Langue et Interaction) dont sont membres plusieurs participants du projet. Ce corpus sera outillé et assorti de métadonnées contextuelles et de l’ensemble des traces de l’écriture des textes.

L’écriture scolaire sera analysée comme un espace de co-énonciation (Culioli 1990) : d’abord, le contexte scolaire et la consigne scripturale contraignent fortement les productions ; ensuite, les interventions des enseignants sur les copies orientent la réécriture. Une des originalités de notre projet est justement d’observer les écrits comme produit de ces contraintes et d’en examiner les marques dans l’écriture elle-même.

I.2.2 Caractérisations de l’écriture scolaire

En-deçà des textes finaux, l’écriture elle-même a intéressé les chercheurs en linguistique et didactique depuis une trentaine d’année. Les travaux de Fabre-Cols (1990, 2002) ont initié la recherche sur la genèse des textes scolaires en appliquant aux brouillons d’élèves les méthodes d’investigation forgées par la génétique textuelle pour l’exploration des manuscrits d’écrivains (Grésillon 1994). À partir de corpus d’écriture enregistrée (dite en temps réel), Doquet (2011) a théorisé la rature comme la trace d’un bouclage méta-énonciatif (Authier-Revuz 1995) lors duquel le scripteur effectue un retour sur le déjà écrit dont il évalue la pertinence. L’étude de la genèse de textes d’élèves s’est appuyée tantôt sur des écrits de niveaux scolaires différents (Lamothe-Boré, 1998 ; Auriac, Gunnarsson-Largy 2013), tantôt sur des enregistrements de l’écriture électronique (Doquet, Leblay 2014), tantôt sur des productions en Français Langue Étrangère (Knapp 1997 ; Baptiste, Lumbroso, Woerly, 2015). La prise en compte du contexte scriptural est une constante de ces études : outre les situations d’écriture collaborative (de Gaulmyn et al. 2001) éventuellement médiée par ordinateur (Crinon, Marin 2010), l’intérêt pour l’écriture elle-même est associé à des travaux centrés sur les indices de la construction d’un « sujet écrivant » (Bucheton 1995, 2014) qui va s’inscrire dans une « communauté discursive » (Bernié 2002). A l’intersection des analyses de cohérence et des perspectives sociologiques, Bautier (1995) a mis en évidence des modes différenciés d’écriture chez les élèves en fonction des consignes et des genres de discours. Cette étude a également identifié des évolutions caractéristiques des fonctions et des usages du langage dans les écrits des collégiens, ainsi que  les éléments différenciateurs et susceptibles de faire difficulté au lycée (Bautier 1997 ; Bautier, Rochex 1998).

Ces études mettent à contribution les apports de la génétique textuelle et de la psycho-sociologie du langage, avec une dimension didactique plus ou moins importante. L’inconvénient de ces travaux est qu’ils s’appuient souvent sur des corpus restreints, fermés car sans autorisation définissant leur utilisation et inexploitables du fait de leur format. Le projet E-CALM basera ses observations sur des données diffusables, regroupant à la fois des textes finaux et leurs brouillons, dans un format numérique exploitable. Ces textes seront systématiquement associés à des métadonnées contextuelles et des annotations au niveau des opérations d’écriture, permettant ainsi l’étude du contexte de production des textes ainsi que des traces de leur genèse.

I.2.3 Interventions des enseignants sur les copies

Peu abordé en formation d’enseignants, le geste professionnel de la correction de copie est un pivot de la réflexion des élèves sur leurs écrits (Fabre 1990 ; Doquet 2011 ; Bucheton 2014). Le groupe EVA (Évaluation des Écrits) de l’Institut National de la Recherche Pédagogique (Mas, Garcia-Debanc et al. 1991) avait mis en évidence l’instabilité de l’évaluation des copies et en particulier le flottement dans les critères de notation autres qu’orthographiques ; ce constat se retrouve de nos jours, par exemple dans la comparaison par Pilorgé (2008, 2010) des corrections d’une même copie par différents enseignants. Les éléments extralinguistiques jouent un rôle important dans la réception des écrits par les professeurs. Bourdieu et de Saint-Martin montraient dès 1975 que le jugement professoral valorise un langage conforme à des représentations socialement normées (Bourdieu, de Saint Martin 1975). Dans la même lignée, des études plus récentes ont montré que ces normes étaient corrélées à la posture de l’enseignant (Pilorgé 2008), ou encore que des écrits narratifs à l’école primaire faisaient l’objet d’évaluations et d’annotations socialement différenciées (Lahire 2008 ; Crinon 2011). Les recherches sur les scolarités des élèves de l’éducation prioritaire ont également fait état, à travers l’étude de bulletins trimestriels, d’appréciations genrées à forte tonalité prédictive (van Zanten 2009). Des approches de caractère historique montrent également que les évaluations des rédactions changent nettement selon l’idéologie à l’œuvre (Bishop 2005).

Les interventions des enseignants sur les copies sont généralement très précises et nombreuses lorsqu’il s’agit du niveau orthographique (Reuter 1984a, 1984b ; Masseron 1981 ; Halté 1984, 1989) dont la norme est fixée et connue des enseignants (Paveau, 2003 ; Lavieu-Gwozdz 2013 ; Van Beveren, Dumortier, Dispy 2013). Elles concernent également la cohérence textuelle (Charolles 1978) sur des critères que Rondelli (2010) a caractérisés comme reposant sur l’emploi des temps et les anaphores, qui constitueraient deux piliers d’une « proto-théorie de la cohérence » chez les enseignants. L’originalité de notre projet est de proposer à la fois une typologie des interventions enseignants, y compris non verbales (soulignements) et une analyse de leur efficience, c’est-à-dire des processus de réécriture que l’intervention a engendrée.

I.2.4 Études sur l’orthographe

Quoique bien documenté, l’enseignement de l’écriture, et plus particulièrement celui de l’orthographe du français, n’est pas complètement décrit du point de vue de son acquisition (Fayol, Jaffré 2014). À partir des années 1970 se sont développées des études sur les écrits des élèves, notamment les travaux de psychologues spécialisés dans l’acquisition du langage (Simon 1973), d’historiens de l’éducation (Chervel 1977 ; Furet, Ozouf 1977), de linguistes de l’écrit (Fabre 1990 ; Doquet 2011), et les recherches conduites à l’Institut National de la Recherche Pédagogique (groupe EVA 1991, 1996).

L’orthographe s’est imposée dès les années 1980, dans la continuité de Blanche-Benveniste et Chervel (1969) et de Catach (1980, 1995), comme un champ majeur de l’étude des écrits d’élèves. À partir des années 1990, plusieurs études ont mis au jour la baisse du niveau orthographique des élèves (MEN-DEP 1996 ; Manesse, Cogis 2007 ; Andreu, Steinmetz 2016). Elles montrent que ce sont les performances en orthographe grammaticale qui subissent la plus grande érosion et ce, quelles que soient les variables sociales prises en compte. Cette désaffection serait liée à une conjonction de facteurs : réduction des horaires de la discipline français, difficultés à organiser les enseignements de l’écriture, déficit de formation des enseignants, auxquels il faudrait ajouter l’évolution des pratiques d’écriture des élèves et étudiants, notamment sur des supports électroniques (David 2014 ; Penloup, Joannidès 2016). De fait, il semble qu’il faille viser une meilleure efficacité didactique pour cet apprentissage qui s’étend nécessairement sur de nombreuses années, de l’école élémentaire au lycée et sans doute au-delà.

Il apparait important de prolonger ces recherches en ciblant le domaine de la morphosyntaxe écrite qui présente des zones de plus grande insécurité orthographique, difficiles à maitriser dans le long terme. Ainsi, la morphographie verbale et les accords, comme la morphologie dérivationnelle, ont été étudiés selon trois approches complémentaires qui ont mis en lumière ces zones où se concentrent durablement les erreurs :

– la linguistique pour la description du système verbal du français (Le Goffic 1997), de la conjugaison des verbes (Meleuc, Fauchard 2000) et des systèmes orthographiques associés (Jaffré 2006) ;

– la psychologie cognitive pour des données essentiellement expérimentales concernant l’acquisition des formes et accords verbaux au présent et des homophonies verbo-nominales (Fayol, Largy 1992 ; Totereau, Barrouillet, Fayol, 1998), y compris la détection d’erreurs (Largy, Dédeyan, Hupet 2004) ; l’utilisation de régularités graphotactiques (Pacton et al. 2011) ; le recours à des informations morphologiques dans l’écriture des mots (Sénéchal, Basque, Leclaire 2006 ; Pacton, Deacon 2008 ; Pacton, Foulin, Casalis, Treiman 2013).

– la psycholinguistique pour la description des faits orthographiques associés à la sphère nominale et verbale (Jaffré, Brissaud 2006 ; Brissaud, Chevrot 2011 ; Brissaud, Negro, Fisher 2012 ; David, Dappe 2013) et à l’accord de l’adjectif (Brissaud 2015). Des études qualitatives ayant recours à la méthodologie des entretiens métagraphiques ont permis d’appréhender les raisonnements des élèves (Jaffré, Ducard 1996).

Ces travaux montrent que se posent aux élèves des problèmes d’une grande complexité, qui nécessitent un haut degré d’abstraction métalinguistique, des méthodologies mieux ajustées et un temps d’enseignement conséquent. Il en ressort en effet que les enseignants sont souvent démunis pour conduire des apprentissages orthographiques, par exemple pour aider leurs élèves à transférer les habiletés orthographiques construites lors d’exercices ritualisés vers des situations d’écriture de textes produits de façon autonome. Il conviendra dès lors de poursuivre ces travaux dans une perspective développementale élargie, à partir des corpus déjà constitués, pour les coordonner et les compléter afin de décrire longitudinalement les principaux problèmes résistant aux enseignements mis en œuvre, surtout quand ils nécessitent : i) une connaissance précise des formes allographiques des unités homophones, ii) une maitrise cohérente des procédures d’accords catégoriels (le nombre, le genre, la personne…), et iii) une distribution ajustée des morphèmes lexicaux et grammaticaux, qui restent majoritairement inaudibles.

I.2.5 Études sur la cohérence textuelle

Les recherches portant sur la cohésion textuelle et sur la cohérence discursive procèdent généralement à partir d’exemples construits ou de textes attestés produits par des experts. Les textes d’élèves présentent l’intérêt d’être « moins cohérents » que les textes habituellement analysés par les chercheurs en linguistique, et, à ce titre, leur étude a permis, il y a une quarantaine d’années, d’apporter un regard nouveau sur l’analyse de la cohérence (Charolles 1978), sur la thématisation et la progression thématique (Combettes, 1978) ou sur la structuration du récit (Fayol 1981). Mais les résultats n’ont pas été assez bien didactisés, en raison de la dominance de la perspective phrastique en grammaire et en didactique.

Plus récemment, des études exploratoires menées sur des productions écrites d’élèves d’école primaire et de collège (Masseron 2005 ; Garcia-Debanc et al. 2010 ; Garcia-Debanc, Bras 2016 ; Garcia-Debanc et al. 2017; Legallois, Lenepveu 2014) a permis de mettre au jour différents problèmes de cohésion textuelle : ambigüités référentielles, contradictions dans les chaines de référence, inférences importantes à effectuer par le lecteur pour rétablir une cohérence d’ensemble.

Dans ce projet, on cherchera à mettre en œuvre divers outils pour analyser les textes d’élèves. Ces outils s’inscrivent dans différents cadres théoriques qu’ils soient centrés sur les relations de cohésion (Halliday, Hasan 1976), sur les relations anaphoriques (Corblin 1995 ; Kleiber 1994 ; Cornish 1999 ; interalia), sur les relations de cohérence (Hume 1758 ; Hobbs 1983 ; Mann, Thompson 1988 ; Kehler 2002 ; Knott, Sanders 1998 ; Asher, Lascarides 2003), ou sur l’articulation entre les différents modes de relation et d’organisation discursive (Charolles 1995, 2006, Charolles, Péry-Woodley 2005, Ho-Dac, Péry-Woodley 2009 ; Ho-Dac et al. 2012 ; Péry-Woodley et al. 2017).

Les textes d’élèves seront étudiés du double point de vue des marques de cohésion employées et de la cohérence de l’interprétation que le lecteur d’un texte produit par un élève est capable de construire. Ce double point de vue permettra d’identifier des textes cohérents et cohésifs, mais aussi des textes cohésifs pouvant donner lieu à une interprétation peu cohérente ou présentant des incohérences locales, ou encore des textes relativement cohérents et économes en marqueurs de cohésion.

L’analyse des spécificités des textes d’élèves tirera partie des enseignements de l’expérience d’annotation discursive qui a abouti à la création de la ressource ANNODIS, corpus de textes en français écrit standard annoté selon différents niveaux d’analyses discursives (Projet ANNODIS financé par l’ANR (appel Corpus 2007-2010) – Partenaires : CLLE-ERSS (Toulouse), IRIT (Toulouse), GREYC (Caen) ; cf. Asher et al. 2017 ; Ho-Dac, Péry-Woodley 2014 ; Afantenos et al. 2012 ; Péry-Woodley et al. 2011).

I.2.6 Émergence du TAL dans l’analyse des écrits d’élèves

Depuis les années 1980, le TAL est étroitement associé à la linguistique de corpus (Habert, Nazarenko, Salem 1997 ; Kennedy 1998) par les méthodes et outils qu’il offre pour concevoir et exploiter de grandes masses de données. On trouve dans la littérature autour du TAL un ensemble de travaux connexes au traitement des écrits scolaires, parmi lesquels différentes recherches concernent l’apport du TAL au domaine de l’apprentissage des langues avec notamment les différentes approches du traitement de l’erreur décrites dans l’ouvrage de Heift, Schulze (2007). Pour le français, le projet Freetext (Granger, Vandeventer, Hamel 2001) mène un travail autour de la détection automatique d’erreurs basée sur le corpus d’apprenants FRIDA. Ce corpus est également au cœur du projet Exxelant (Antoniadis, Ponton, Zampa 2010) avec le développement d’un système d’interrogation portant à la fois sur les productions et les corrections.

Même si elle s’adresse le plus souvent à des scripteurs experts, la correction automatique de textes est également un domaine important du TAL proposant des approches variées (Kukich 1992) potentiellement intéressantes pour le traitement des écrits scolaires. Le traitement automatique d’écrits non normés est un domaine plus récent en TAL avec notamment les travaux autour de corpus SMS. Bien que spécifique, ce type de corpus présente des similarités avec les corpus scolaires, en particulier sur la segmentation en mots (Fairon, Klein, Paumier 2006). Toujours dans le domaine de ces écrits peu normés, signalons également le système d’étiquetage morphosyntaxique MElt (Denis, Sagot 2012) développé spécifiquement pour ce type d’écrits et notamment appliqué à des textes provenant de forums en ligne (Baranes 2012).

Toutefois, à l’exception de travaux autour de la dictée (Beaufort, Roekhaut 2011), ce n’est que depuis 2015 que le TAL s’intéresse au domaine des écrits scolaires avec les travaux du Lidilem dans le cadre du projet Scoledit (Wolfarth, Ponton, Brissaud 2016 ; Wolfarth, Ponton, Totereau 2017). Notre projet présente des avancées technologiques considérables en proposant des outils d’exploration et d’analyse textuelle tout en préservant l’intégrité linguistique des écrits.

I.3.        Méthodologie et gestion des risques

I.3.1 Méthodologie

Nous ambitionnons de proposer une méthodologie commune à partager avec la communauté, pour un changement d’échelle des analyses des écrits scolaires et mobilisant des traitements automatiques.

  • Réunir et harmoniser les pratiques existantes pour constituer un protocole de traitement généralisable: l’objectif du projet E-CALM étant de publier un grand corpus, qui permettra de fonder l’analyse des aspects procéduraux de l’écriture et contraster différentes situations didactiques et sociologiques, le travail s’appuiera sur les différents matériaux déjà réunis par les équipes partenaires et en harmonisera le traitement. Le caractère inédit du corpus réuni va permettre de croiser les méthodes de chaque laboratoire pour proposer un protocole d’analyse qui s’appuie sur les aspects les plus productifs de ces méthodes, dont le cumul permettra d’obtenir des résultats significatifs.

Le projet E-CALM analyse un corpus dont les particularités impliquent l’invention de protocoles de traitement spécifiques et destinés à être partagés. Pour chaque objet donnant lieu à une tâche analytique (orthographe / cohérence / interventions enseignantes), nous adopterons une méthodologie similaire :

– choix d’un sous-corpus ;

– élaboration des guides d’annotation qui seront éprouvés avant la procédure d’annotation elle-même (il est prévu un guide par objet annoté : orthographe / cohérence / interventions enseignant) ;

– annotation et évaluation-validation des annotations ;

– investigations par la linguistique outillée ;

– élaboration de modules d’investigation outillée des écrits spécifiques aux écrits d’élèves et d’étudiants.

  • Construire les outils d’un changement d’échelle: il s’agit de passer de l’analyse qualitative d’un nombre restreint de situations singulières déjà maintes fois réalisée (cf. I.2), à la possibilité de mettre en place des analyses quantitatives permettant la mise au jour de variables transversales caractéristiques des faits scripturaux typiques de la production écrite selon différents genres d’écrit et catégories de scripteurs, selon des spécificités de l’établissement, de l’enseignant, de la situation didactique mise en œuvre, etc. La sélection d’items pertinents pour interpréter contextuellement les différences entre les écrits, initiée conjointement par Clesthia et Circeft (cf. 2.3.1), sera généralisée à l’ensemble des équipes. Les méthodes élaborées pour mener à bien ce projet feront appel aux techniques de la linguistique outillée et du TAL pour assister les différentes tâches de constitution et d’analyse. En particulier, le travail de conception d’une assistance à l’annotation entamé au Lidilem et CLLE sera généralisé à l’ensemble des sous-corpus provenant des autres équipes. La mise en commun des outils de traitement permettra de faire la synthèse des contraintes et d’élaborer une procédure et des conventions de transcription / annotation permettant de rendre analysables tous les aspects des écrits qui intéressent les laboratoires, y compris les investigations génétiques.
  • Partager et valoriser les ressources et la méthodologie : tous nos choix méthodologiques sont guidés par une bonne connaissance des formats de diffusion utilisés par la communauté scientifique (licences et formats des corpus et des annotations, modules de TAL).

I.3.2 Risques 

Le risque éventuel de recours concernant la diffusion en ligne est prévenu par la signature d’une autorisation préalable des ayant-droits et l’anonymisation des écrits et des entretiens avant publication.

II.       Organisation du projet et moyens mis en œuvre

II.1.     Coordinateur scientifique

Claire Doquet est professeure en Sciences du Langage à la Sorbonne Nouvelle, responsable de l’axe Linguistique de l’écrit du laboratoire Clesthia et, au sein de cet axe, co-responsable avec Serge Fleury de l’opération de recherche Ecriscol. Impliquée à 75% dans le projet, elle se centrera avant tout sur la coordination, tâche essentielle et complexe du fait de l’importance de l’équipe et du nombre de partenaires. Elle participera aux autre tâches en particulier pour ce qui concerne la dimension génétique de l’analyse (brouillons et textes, rôle des interventions des enseignants dans la réécriture).

II.2.     Consortium

Les équipes impliquées dans le projet E-CALM travaillent toutes sur l’écriture scolaire, à partir de points de vue et avec des approches théoriques et technologiques complémentaires. Tous les partenaires sont partie-prenante de la formation initiale et/ou continue des enseignants ainsi que de la formation de l’encadrement intermédiaire des enseignants (les différents corps d’inspection). Tous les partenaires ont une expérience de la constitution et de la mise à disposition de corpus, les trois équipes de Sciences du Langage participent au Consortium CORLI porté par l’Institut de la Langue Française, Fédération de Recherche du CNRS, FR 2393.

  • Clesthia : Outre son expertise dans le domaine de la constitution de corpus, avec le Corpus du Français Parlé Parisien (http://cfpp2000.univ-paris3.fr), le projet FRACOV (http://www.univ-paris3.fr/fracov-227156.kjsp) et le corpus Oral représenté en constitution (http://www.univ-paris3.fr/operation-1-oral-represente–316241.kjsp), le laboratoire Clesthia a acquis une expérience dans le domaine du traitement des écrits d’élèves, à travers la constitution, entamée depuis 3 ans, du corpus écologique Ecriscol (http://www.univ-paris3.fr/ecriscol-300509.kjsp), qui est aujourd’hui le seul conçu pour rendre accessibles automatiquement les opérations scripturales (ajouts, suppressions, etc.). E-CALM s’inscrit dans la continuité des travaux de différents chercheurs du laboratoire : C. Doquet a réalisé la première étude génétique d’écriture scolaire en temps réel (capture avec un logiciel de traitement de texte dédié (Doquet-Lacoste 2004), J. David est un spécialiste de l’acquisition de l’orthographe (David 2007 ; David, Morin, 2013 ; David, Doquet, 2016), J.L. Pilorgé travaille sur l’évaluation des écrits des élèves (Pilorgé 2010), O. Lumbroso (DILTEC EA2288) poursuit des recherches sur la transposition didactique de l’écriture « à programme » repérée chez Zola (Lumbroso 2007). Clesthia a organisé le 18 mars 2015 la première journée d’études consacrée aux corpus d’écrits d’élèves rassemblant 5 laboratoires de linguistique et didactique, prélude à la constitution d’un réseau de recherche national. Ce réseau est aujourd’hui en cours de constitution et les travaux de cette journée ont donné lieu à un numéro de la revue Corpus (David, Doquet, Fleury 2017).

Sur le plan technologique, l’équipe Clesthia travaille depuis de nombreuses années une approche quantitative des textes, qui a conduit au développement de plusieurs logiciels comme Lexico3 et à de nombreux partenariats dans des projets de linguistique outillée. Plus récemment le logiciel Le Trameur, outil d’exploration de treebank créé par S. Fleury (http://www.tal.univ-paris3.fr/trameur/) permet de réaliser des traitements quantitatifs sur des ressources textuelles multilingues et richement annotées, y compris des corpus alignés (Fleury, Zimina 2007 ; Fleury, Zimina 2014 ; Zimina, Fleury 2015). La spécificité des écrits d’élèves et la volonté de permettre une approche génétique de l’écriture a conduit à aménager la transcription diplomatique des manuscrits (Doquet, Enoiu, Fleury, Mazziotti, 2017), à élaborer un système d’annotation spécifique adapté et à aménager le logiciel Trameur pour le traitement des fichiers obtenus.

Clesthia participe au consortium CORpus Langues, Interactions (Huma Num) et a porté le projet ANR Écritures (http://www.univ-paris3.fr/anr-ecritures-96530.kjsp) consacré à l’analyse des brouillons d’écrits professionnels avec une approche génétique, discursive et textométrique (Lardilleux, Fleury, Cislaru 2013 ; Doquet, Poudat 2015). Le groupe Ecriscol porte aujourd’hui le projet Émergence de perspectives genrées dans des écrits d’enfants et d’adolescents financé par le GIS Institut du Genre.

  • Circeft-Escol : Circeft-Escol dès sa création en 1987 a travaillé à la compréhension des inégalités sociales de réussite scolaire et plus particulièrement au rôle du langage et de l’écrit dans ces inégalités, aux différents niveaux de leur réalisation, en analysant les effets différenciateurs de la littératie scolaire. L’équipe a conduit de nombreuses actions de recherche portant sur les analyses de copies d’élèves à différents niveaux de la scolarité (Bautier 1997 ; Bautier, Rochex 1997 ; 1998), sur les écrits de l’évaluation internationale PISA (Bautier, Crinon, Rayou, Rochex 2006 ; Bautier, Rayou 2009, 2013) ou encore les écrits d’élèves raccrocheurs dans le cadre d’une convention avec l’Institut Français d’Éducation et le Commissariat général à l’égalité des territoires (rapport sous la direction de D. Glasman, P. Rayou, IFE 2016). C. Delarue-Breton a plus particulièrement étudié le rôle de l’écriture scientifique dans l’appropriation des savoirs par les étudiants de master, à partir de leurs écrits de travail et des différentes versions du mémoire (Delarue-Breton 2014b, 2016a, 2017 ; Delarue-Breton, Dolignier 2016). B. Lavieu-Gowzdz s’intéresse aux travaux d’élèves et d’étudiants dans le domaine de l’étude de la langue (Lavieu-Gwozdz 2013 ; Lavieu, Pagnier 2017) et P. Richard-Principalli à l’écriture de texte dans différents genres par des enfants d’âge primaire (Richard-Principalli, Ferone, Crinon 2012), ou sous forme de textes de savoir à partir d’un support numérique (Richard-Principalli, Ferone, Crinon 2017). E. Vinel a travaillé sur la co-construction de récits oraux par des adultes (parents ou enseignants) et des enfants et la variation des usages des expressions référentielles dans ces discours suivant différents facteurs : genre de discours, support choisi, contexte d’énonciation (Vinel 2014). De plus, E. Bautier est responsable d’un axe de recherche du groupe de recherche interuniversitaire Reseida qui étudie dans les cahiers d’élèves de 6ème de collège la relation entre les traces écrites, les opérations de pensées ainsi sollicitées et les contextes sociaux des établissements. Depuis janvier 2017, l’ensemble des participants de l’équipe Circeft-Escol au projet ANR, participe à un projet d’investissement et d’avenir, TAO, qui vise à comparer un dispositif numérique « Twictée » d’apprentissage de l’orthographe avec des dispositifs plus traditionnels en vue de comprendre l’impact de l’utilisation de ce dispositif sur l’apprentissage de l’orthographe d’élèves de cycle 3.
  • CLLE-ERSS est une des deux composantes de l’UMR 5263, CLLE (Cognition, Langue, Langages, Ergonomie) dont les activités couvrent de nombreux domaines de l’analyse linguistique (phonologie, morphologie, syntaxe, sémantique, discours) et intègrent une forte dimension interdisciplinaire (didactique des langues, traitement automatique des langues, psycholinguistique). Depuis sa création, CLLE-ERSS développe une approche quantitative de la linguistique, à travers la constitution et l’exploitation de grands corpus langagiers, écrits ou oraux. L’activité de CLLE-ERSS s’organise autour de quatre axes, dont trois sont représentés par les membres du projet: l’axe S’caladis (Structures Sémantiques : des catégories lexicales au discours, resp. A. Le Draoulec et J. Rebeyrolle) qui s’intéresse aux structures du sens dans la langue et à leurs processus de construction; l’axe DidAPs (Didactique, Acquisition, Psycholinguistique, resp. K. Duvignau et C. Garcia-Debanc) qui mène des études sur l’acquisition et l’enseignement du français; et l’axe CARTEL (Corpus, Applications et Ressources pour le Traitement et l’Étude du Langage, resp. N. Hatout) dont les travaux portent sur le développement, l’adaptation et l’utilisation de ressources informatiques pour l’étude du langage. Avec le projet E-CALM, la collaboration entre S’caladis et CARTEL, qui a abouti à la constitution de la ressource ANNODIS (Asher et al. 2017 ; Ho-Dac, Péry-Woodley 2014 ; Péry-Woodley et al. 2011), va se poursuivre en s’ouvrant au nouveau type de données que constituent les textes d’élèves. La mise commun des spécificités de tous les membres impliqués dans le projet E-CALM permettra de bénéficier d’expériences à la fois en termes de constitution et d’analyse d’une ressource annotée au niveau discursif (Ho-Dac et al. 2012, Péry-Woodley et al. 2017 ; Atallah et al. 2016), d’analyse de la composante discursive des textes d’élèves (Garcia-Debanc et al. 2017 ; Garcia-Debanc, Bras 2016), d’élaboration de modélisations linguistiques et psycholinguistiques ainsi que de diffusion des travaux de recherche à divers milieux professionnels, notamment auprès des enseignants, de l’école maternelle à l’université (Beucher-Marsal, Garcia-Debanc 2014 ; Auriac et al. 2013).

CLLE-ERSS participe au Consortium CORLI et au projet COST TextLink visant le partage et l’interopérabilité des ressources linguistiques pour l’étude du niveau discursif. Il a participé au projet ORFEO aboutissant à la mis à disposition d’une plateforme d’interrogation de corpus oraux et écrits et a organisé en juin 2015 une journée d’étude sur le sujet, intitulée « Méthodes d’analyse et de traitement des textes d’élèves : enjeux scientifiques et ressources pour la formation ».

  • Le Lidilem possède une expertise reconnue en matière de constitution de corpus, de description linguistique et de recherches en didactique. Ses travaux portent sur différents niveaux de description – interface sémantique-syntaxe, pragmatique, acquisition du langage, compétences en littératie, etc. – et sur différents publics – locuteurs « tout-venant », scientifiques, élèves de tous niveaux scolaires, étudiants, etc. Il mène aussi des recherches en TAL, ce qui engendre au sein du laboratoire des collaborations fructueuses (par ex. TAL et didactique, TAL et lexicologie). Le Lidilem a porté divers projets ANR dans cette veine : Scientext 2006 (Tutin, Grossmann 2014) pour la mise à disposition d’un grand corpus d’écrits scientifiques, Emolex 2009 (responsables Novakova et Blumenthal) pour des études sur le lexique des émotions… Il a également participé au projet IDILL (Integrated Digital Language Learning) dans le cadre du réseau d’excellence européen Kaleidoscope (Granger, Kraif, Ponton, Antoniadis, Zampa 2007).

Les préoccupations didactiques du Lidilem englobent la littératie au sens large, avec des travaux sur l’entrée dans l’écrit, le rapport à l’écriture, les compétences scripturales au primaire et au secondaire (Barré de Miniac 2003), ainsi que sur la compétence orthographique, son enseignement et son développement (Brissaud, Chevrot, Lefrançois 2006 ; Brissaud, Chevrot 2011 ; Brissaud, Cogis 2011). La recherche s’articule à des démarches concrètes pour la formation : élaboration de tests de positionnement en français écrit (projet porté par l’Université Paris Ouest Nanterre et financé par Université Ouverte des Humanités), synthèse des apports du laboratoire sur les écrits universitaires (Boch, Frier 2015).

Le Lidilem élabore des corpus cohérents avec ces recherches : Littéracie avancée (financements Corpus Écrits de la TGIR HumaNum et Equipex ORTOLANG pour la finalisation de corpus – responsables Rinck et Jacques), Scoledit (responsables Brissaud, Ponton, Totereau), qui s’inscrit dans la continuité du projet Lire-Ecrire au CP (2012-2015, financé par IFÉ et DGESCO) et poursuit un objectif d’édition d’un large corpus longitudinal d’écrits scolaires du primaire (du CP au CM2), assistée par des méthodes issues du TAL (Wolfarth, Ponton, Totereau 2016). Le Lidilem est aussi le partenaire Recherche de projets financés par l’Institut Carnot de l’Éducation et collabore à ce titre avec des établissements et des cadres de l’Éducation Nationale. Il participe en outre au projet E-Fran « Twictées » avec Circeft, partenaire du consortium actuel.

II.3.     Moyens mis en œuvre pour atteindre les objectifs

Hormis la tâche de coordination qui court sur l’ensemble du projet (tâche 0), le découpage en tâches et la répartition des chercheurs entre les tâches reflètent le fonctionnement très intégré des interrogations. À partir des trois objectifs énoncés plus haut, qui nous permettront de contribuer à l’étayage empirique de la didactique de l’écriture, les tâches sont en interaction les unes avec les autres, chacune se concentrant :

(1) sur un des volets transversaux aux objectifs (tâches 2, 4, 5) : domaine d’investigation : orthographe / textualité ; objets étudiés : interventions des enseignants / textes finaux / avant-textes

(2) sur les aspects technologiques en lien avec ces investigations (tâches 1, 3).

II.3.0 Tâche 0- Coordination

Responsable : C. Doquet (Clesthia)

Partenaires : CIRCEFT (E. Vinel), CLLE (L.-M. Ho-Dac), LIDILEM (M.-P. Jacques)

Période : toute la durée du projet [mois 0-42]

Livrable : rapport intermédiaire et rapport final de la recherche.

Programme détaillé des travaux :

  • T. 0-1: Supervision organisationnelle : avancée du projet, planning des tâches, respect du budget.

– Mise en relation des différents groupes de travail pour optimiser la coopération et la circulation de l’information : en particulier, les informations internes aux groupes (T. 0.4).

– Préparation du passage d’une tâche à l’autre, en particulier pour les éléments d’interaction étroite comme les annotations linguistiques et discursives.

– Dispositions pour le respect du calendrier et du budget.

  • T. 0-2: Supervision scientifique : veiller à la cohérence méthodologique et théorique des tâches et de l’articulation entre tâches.

– Prise de connaissance régulière des travaux des groupes.

– Information systématique sur les communications et articles des autres membres du projet.

– Veille scientifique sur les thématiques du projet : repérage des publications et travaux d’autres groupes de recherche autour des écrits d’apprenants.

La coordinatrice prendra en charge les bilans intermédiaires à remettre à l’ANR en cours de projet ainsi que le bilan final. L’écriture de ces documents se fera en lien avec les responsables des tâches et les rapports qu’ils fourniront régulièrement. Chaque responsable de tâche prendra en charge son organisation en conformité avec les objectifs spécifiés dans le projet. Les responsables de tâches fourniront à la coordinatrice un bref rapport récapitulatif des avancements à chaque étape de la tâche et l’informeront des éventuelles solutions de repli mises en place.

  • T. 0-3: Organisation des différentes réunions et ateliers de travail

Le socle du travail commun sera réalisé lors de séminaires organisés chaque année, en présentiel (voir diagramme) :

– année 1 : 1 réunion de 2 journées, 1 réunion d’1 journée ;

– années 2 et 3 : 1 réunion de 2 journées chaque année (une réunion à Toulouse, une à Grenoble) ;

– année 4 : 1 réunion de 2 journées pour la clôture du projet.

Des réunions en visio-conférences viendront, chaque année, compléter ces rencontres :

– une réunion de l’ensemble des participants au projet ;

– deux réunions des responsables de chaque équipe seront programmées chaque semestre, pour s’assurer de l’avancée des travaux dans les trois équipes.

  • T. 0-4 : Organisation de la communication du projet à l’intérieur du groupe de recherche :

– Actualisation de l’espace réservé du site Web (cf. tâche 7) :

– compte-rendu périodique des activités, tâche par tâche ;

– mise à disposition et actualisation des documents et résultats intermédiaires, chat interne.

– Veille scientifique sur les thématiques du projet : appels à communication et articles.

  • T. 0-5 : Supervision des opérations de valorisation scientifique au cours du projet :

– Veille sur les appels à communication ou articles.

– Organisation de la proposition de symposiums dans des colloques internationaux.

– Organisation des opérations de valorisation du travail :

– Une journée d’études à mi-parcours (entre mars et juin 2018).

– Un colloque de fin de projet, organisé en partenariat avec un autre laboratoire travaillant sur des écrits non standards (par exemple le laboratoire Praxiling à Montpellier).

Pour l’ensemble de cette tâche, la coordinatrice scientifique sera aidée par un project manager.

II.3.1 Tâche 1 – Structuration d’un corpus cohérent et significatif

Responsable : C. Ponton (Lidilem)

Partenaires : le collectif

Période : mois 0-18

Livrable : le corpus au format XML TEI intégralement transcrit et assorti de métadonnées.

Objectif : constituer un corpus de référence de l’écriture scolaire à partir d’une sélection parmi les corpus existant au sein de chaque équipe, complétée de recueils supplémentaires. Le corpus final contiendra des écrits du primaire à l’université (du cours préparatoire au master) avec les métadonnées contextuelles et prendra en compte la variété des contextes sociaux et des cursus.

Programme détaillé des travaux :

  • T. 1-1 Constitution du « corpus brut ». [mois 0-18]

Les différentes équipes disposent actuellement de corpus déjà constitués sous des formes diverses (cf. tableau récapitulatif en annexe). En fonction des objectifs linguistiques et didactiques du projet, cette sous-tâche aura pour mission d’opérer une sélection dans cet ensemble de données et d’en constituer une version numérique dans le format commun défini dans les sous-tâches 3 et 5. Ceci nécessitera notamment :

– la sélection des corpus et constitution de corpus complémentaires,

– la transcription des corpus non encore transcrits,

– la transposition des corpus ne respectant pas le format commun,

– la gestion des droits (la nature du corpus et l’objectif final de diffusion nous imposent une charte éthique très stricte ; si ce n’est déjà fait, les données recueillies seront anonymisées et soumises à une autorisation préalable de diffusion),

– l’annotation des interventions des enseignants

  • T. 1-2 Déterminer et réaliser la collecte complémentaire. [mois 0-18]

Même si les corpus déjà existants peuvent répondre aux objectifs du projet, il sera toutefois nécessaire d’opérer quelques compléments de collecte. En effet, les études proposées dans les différentes tâches du projet nécessitent des compléments (manques de données au niveau du collège et du lycée, manque de textes narratifs dans le supérieur) et d’apport en données contextuelles (pour le collège et le lycée).

  • T. 1-3 Définir les métadonnées pertinentes (indices contextuels didactiques et sociologiques) et compléter les métadonnées déjà existantes. [mois 0-6]

Les corpus déjà construits dans les équipes disposent d’un ensemble de de métadonnées décrivant le contexte de recueil des productions ainsi que de données décrivant les élèves, les enseignants, la classe… Ces données sont spécifiques aux utilisations prévues pour chaque sous-corpus. Il s’agira dans cette sous-tâche, à partir de l’existant, de définir une description commune au corpus final du projet. Une collaboration initiée depuis 2016 entre les équipes Circeft et Clesthia a permis de réaliser simultanément des collectes d’écrits et de métadonnées très précises, par le biais d’observations des classes et d’entretiens avec les élèves et les enseignants. Ce matériau va être analysé et il en sera extrait les corrélations les plus significatives entre qualité textuelle et variables contextuelles, de sorte que pour des recueils de plus grande ampleur, pour lesquels il n’est pas possible de réaliser des entretiens, puissent être élaborés des questionnaires à destinations (1) des élèves et (2) des enseignants qui permettront de recueillir plus rapidement les métadonnées les plus pertinentes.

  • T. 1-4 Définir la procédure de transcription. [mois 0-6]

La transcription est l’étape (manuelle pour nous) qui permet de passer de la copie papier à une version numérique. Elle impose un certain nombre de choix interprétatifs sur ce qui doit être transcrit et comment. Plusieurs membres du projet ont déjà eu une réflexion commune sur cette étape et un embryon de procédure commune existe. Toutefois, il conviendra ici d’affiner cette procédure et, surtout, d’homogénéiser l’ensemble des corpus qui alimenteront le corpus commun. Par exemple, pour répondre aux objectifs de la tâche 4, il conviendra de faire apparaitre tout ce qui se voit sur la copie (matériau linguistique, spatialité, soulignements, différences de scripteurs, etc.).

  • T. 1-5 Proposer un schéma d’encodage des corpus scolaires à la norme TEI. [mois 7-10]

Afin de partager largement le corpus constitué lors de ce projet sur la plateforme Ortolang (cf. tâche 2), nous proposerons, en fonction des réflexions de T. 1-3 et T. 1-4, un schéma d’encodage de notre corpus (extensible à d’autres corpus du même type) répondant aux recommandations XML TEI.

II.3.2 Tâche 2 – Analyse des écrits scolaires et académiques : orthographe grammaticale et lexicale

Responsable : C. Brissaud (Lidilem)

Partenaires : CIRCEFT (B. Lavieu-Gwozdz, E. Vinel), CLESTHIA (J. David), LIDILEM (F. Rinck, C. Totereau)

Période : mois 0-30

Livrable : une échelle des performances orthographiques en production d’écrit dans le domaine de la morphosyntaxe verbale, des accords de l’adjectif et des morphèmes dérivatifs.

Objectif : décrire le développement de la compétence orthographique en production d’écrit, du début de l’école élémentaire à l’université.

Justification de la tâche :

La description panoramique projetée n’est pas disponible à ce jour. Elle prendra appui sur les erreurs constatées mais aussi sur les réussites des élèves dans le domaine de la morphosyntaxe écrite, qui résiste encore en fin de scolarité obligatoire, au collège, et continue à être une source d’erreurs récurrentes à l’université : d’une part la morphographie flexionnelle, verbale et adjectivale ; d’autre part la morphographie lexicale avec les lettres dérivatives, à valeur lexicale et/ou étymologique.

Programme détaillé des travaux :

  • T. 2-1 Étude longitudinale des productions orthographiques des mêmes scripteurs tout au long de l’école primaire (corpus Scoledit-Lidilem) [mois 0-24]
  • T. 2-2 Étude transversale des réussites et erreurs orthographiques aux différents niveaux des cursus primaire, secondaire et universitaire (corpus Scoledit-Lidilem, Ecriscol-Clesthia et Littéracie avancée-Lidilem) [mois 0-36]
  • T. 2-3 Etude de la révision orthographique effectuée par les élèves et les étudiants sur leurs propres textes, y compris les réécritures induites par les interventions manuscrites des enseignants (corpus Ecriscol-Clesthia) (cf. tâche 6) [mois 0-36]
  • T. 2-4 Analyse des entretiens métagraphiques conduits avec les élèves, à trois niveaux : CE1 (corpus Ecriscol-Clesthia) ; classe de 5e du collège (corpus à constituer) ; premier cycle universitaire (corpus Ecriscol-Clesthia et Littéracie avancée-Lidilem) [mois 10-38]

Nous confronterons ces descriptions et analyses aux modèles développementaux et aux scénarios d’apprentissage disponibles. Nous pourrons alors envisager des prolongements psycholinguistiques avec des études plus standardisées et des prolongements en TAL pour la détection d’erreurs dans des textes éloignés des normes. Nous entendons enfin articuler nos données et analyses avec les recherches en didactique de l’orthographe pour une évolution positive des enseignements.

II.3.3 Tâche 3 – Analyse des écrits scolaires et académiques : cohérence discursive

Responsable : Josette Rebeyrolle (CLLE)

Partenaires : CIRCEFT (E. Bautier, C. Delarue-Breton), CLESTHIA (D. Legallois), CLLE (M. Bras, C. Garcia-Debanc, L.-M. Ho-Dac V. Paolacci,), LIDILEM (M.-P. Jacques)

Période : mois 0-38

Livrables : 1/ guides d’annotation, 2/ corpus Resolco annoté, 3/ échantillon du corpus global du projet annoté, 4/ cartographie des indicateurs de la compétence relative à la cohérence.

Objectif : faire progresser les connaissances sur la mise en place des compétences rédactionnelles tout au long du cursus scolaire en se focalisant sur un aspect qui n’a pas encore donné lieu à des études sur de grands corpus : le niveau discursif, et plus précisément la cohérence discursive.

Justification de la tâche :

Cette tâche permettra de mettre en place des méthodes, des outils et des ressources pour l’analyse des facteurs de cohérence dans les écrits scolaires. Les ressources visées prendront la forme de corpus annotés selon plusieurs dimensions et constitueront les bases empiriques nécessaires permettant d’atteindre l’objectif final de la tâche : construire des indicateurs de la compétence discursive des rédacteurs rendant possible des comparaisons entre les différents genres textuels qui composent le corpus global, d’une part, et entre la maitrise des compétences discursives dans les brouillons et dans les états finaux des textes, d’autre part. Une fois ces indicateurs mis au jour, il sera alors également possible de les croiser avec des indicateurs qui relèvent d’autres niveaux d’analyse linguistique, tels que l’orthographe (cf. T. 5), et avec les différents types d’interventions des enseignants (cf. T. 6).

Programme détaillé des travaux :

  • T. 3-1 Annotation de la cohésion / cohérence [mois 0-32]

L’étude de l’articulation entre cohésion et cohérence reposera sur différents niveaux d’annotation qui correspondent à des approches complémentaires de l’organisation discursive :

– une approche « ascendante », partant des unités minimales vers les unités supérieures qui consiste en une segmentation des textes en unités élémentaires et une annotation des relations de cohérence entre les segments (par exemple narration, explication, élaboration) ;

– une approche « descendante », partant des schémas macro-structuraux (schéma narratif, par exemple) vers les unités plus minimales ;

– une approche « surfacique » visant à marquer des indices de cohésion à la surface des textes (par exemple, marqueurs anaphoriques, connecteurs).

L’annotation proprement dite des productions écrites d’élèves prendra appui sur les acquis des méthodes d’annotation discursive développées dans le cadre du projet ANNODIS. Une première phase sera consacrée à la création de nouveaux guides ou à l’adaptation des guides d’annotation d’ANNODIS (Muller et al. 2012 ; Colléter et al. 2012) conçus pour des textes écrits par des experts et non par des élèves en cours d’apprentissage. Pour chaque marqueur de la cohésion/cohérence, la campagne d’annotation se déroulera en quatre étapes :

– annotation exploratoire des textes du sous-corpus Resolco ;

– aller et retour pour finaliser les guides et évaluer les adaptations nécessaires pour permettre l’annotation des autres écrits scolaires du projet (Ecriscol et Scoledit) ;

– rédaction de guides modulables selon les types de texte et le niveau de littératie des scripteurs ;

– annotation opérationnelle d’un échantillon du corpus global.

  • T. 3-2 Construction d’indicateurs des compétences discursives des élèves [mois 22-38]

L’analyse des corrélations entre les différents niveaux d’annotation permettra de construire des indicateurs des compétences discursives des élèves. Ces indicateurs pourront ensuite être utilisés pour effectuer des comparaisons :

– entre les différents genres textuels qui composent le corpus global. Pour ce volet de nos analyses, nous pourrons comparer à un même niveau scolaire et universitaire des textes narratifs et argumentatifs afin d’identifier ce qui crée la cohésion de façon privilégiée dans tel ou tel type de texte (cohésion lexicale, construction thématique, connecteurs, etc.) ;

– entre la maitrise des compétences discursives dans les brouillons et dans les états finaux des textes afin d’évaluer leur progression, pour les sous-corpus qui prévoient d’enregistrer plusieurs versions d’une même production.

II.3.4 Tâche 4 – Analyse des interventions écrites des enseignants sur les écrits des élèves

Responsable : E. Bautier (CIRCEFT)

Partenaires : CIRCEFT (E. Vinel, P. Richard-Principalli, C. Delarue-Breton), CLESTHIA (C. Doquet, S. Akesbi), CLLE (C. Garcia-Debanc, C. Dompmartin), LIDILEM (M.-P. Jacques, F. Rinck)

Période : mois 6-34

Livrables : 1/ Plusieurs typologies des interventions en fonction d’une pluralité de variables (pédagogiques, didactiques, sociologiques), 2/ Établissement de corrélations entre des types d’interventions et des niveaux du cursus, des contextes sociaux des établissements, des genres d’écrits et des états successifs des textes, 3/ Analyses des normes implicites mobilisées par les correcteurs, 4/ Synthèse des modalités de réception des interventions par les élèves et les étudiants.

Objectif : décrire systématiquement les interventions des enseignants sur les copies et leurs conséquences sur la réécriture des élèves, selon le contexte et le type d’intervention.

Justification de la tâche :

Les interventions écrites des enseignants sur les productions des élèves et des étudiants n’ont guère fait l’objet d’études extensives. Au demeurant, leur analyse est importante car non seulement elles sont très diverses (en fonction des niveaux de scolarité et du contexte social, de la nature des erreurs signalées) mais elles participent du contrat didactique interprété par les élèves. Certains enseignants signalent simplement une erreur dans la marge des textes, d’autres vont jusqu’à proposer des réécritures. Les uns centrent leurs corrections sur les écarts orthographiques de leurs élèves, d’autres remarquent des phénomènes de cohésion, de macrostructure ou de cohérence énonciative (Charolles 1978 ; Pilorgé 2010 ; Rondelli 2010).

Programme détaillé des travaux :

  • T. 4-1 : Typologie des interventions [mois 6-30]

En relation avec la tâche 1, une première typologie des interventions sera effectuée sur les corpus constitués et les nouveaux corpus présentant des interventions (Ecriscol, Littératie avancée) :

– modalités des interventions : soulignements, corrections, commentaires, suggestions de réécriture ;

– moment des interventions : brouillon ou premier jet, étapes intermédiaires, écrit final ;

– identification des différents objets sur lesquels portent les interventions : orthographe, cohésion, cohérence textuelle, réalisation du genre discursif dans le premier jet et dans l’éventuelle réécriture.

Seront ainsi mises en évidence les normes exprimées par ces interventions susceptibles d’influencer les apprentissages des élèves.

  • T. 4-2: Élucidation de la réception des interventions des enseignants par les élèves et étudiants et des stratégies de réécriture [mois 23-28]

Un panel d’élèves et d’étudiants de niveaux scolaires et d’origines sociales différenciés sera soumis à des entretiens “ex post” (successivement à l’activité) afin de leur faire expliciter les difficultés rencontrées et leur mode de résolution. Ils seront aussi conduits à commenter les interventions des enseignants sur leurs copies.

  • T. 4-3: Mise en relation des interventions et des révisions des textes [mois 29-38]

Sur le corpus des textes ayant fait l’objet d’une réécriture (ou de corrections) par les élèves à différents niveaux du cursus, suite aux interventions enseignantes, une analyse de l’effet de ces dernières sur la réécriture sera effectuée. Il sera ainsi possible de faire des hypothèses sur la fonction d’aide à l’écriture et la réécriture de ces interventions. Sur la partie du corpus ayant fait l’objet d’observations, d’entretiens, de recueils de métadonnées, cette fonction pourra être mise en relation avec les pratiques d’enseignement.

II.3.5 Tâche 5- Résultats et interprétation

Responsable : C. Delarue-Breton (CIRCEFT)

Partenaires : CIRCEFT (E. Bautier, B. Lavieu-Gwozdz, P. Richard-Principalli, E. Vinel), CLESTHIA (J. David, C. Doquet), CLLE (M. Bras, C. Garcia-Debanc, L.-M. Ho-Dac, J. Rebeyrolle), LIDILEM (M.-P. Jacques)

Période : mois 12-38

Livrables : 1/ Documents de synthèse concernant : une éventuelle corrélation entre compétences des élèves et des étudiants dans le domaine de l’orthographe et de la cohérence, des effets de cumuls et de figement des difficultés en fonction du niveau dans le cursus et des contextes didactiques et sociologiques ; les lieux d’interrogation qui subsistent, et les pistes d’investigations nouvelles concernant le recueil de nouveaux corpus. 2/ Document de synthèse des synthèses (synthèses respectives des tâches 2, 3, 4 et 6).

Objectif : mettre en évidence les zones de recouvrement et les articulations entre les différent objets observés dans les tâches 2 à 4 pour envisager les phénomènes de manière systémique.

Justification de la tâche :

Les analyses conduites au sein des tâches 2 à 4 permettront d’obtenir deux types de résultats : d’une part, les connaissances sur les compétences rédactionnelles des élèves et des étudiants (orthographe et cohérence textuelle et discursive) en fonction du niveau dans le cursus ; d’autre part, les interventions des enseignants et les normes qui les sous-tendent (objets concernés, effets produits, permettant l’élaboration d’une une typologie des interventions des enseignants et des consignes d’écritures). Nos analyses permettront de distinguer clairement la maitrise de l’orthographe (T. 2) de celle de la construction des textes (T. 3). Cependant, nous pensons qu’il y a de possibles zones de recouvrement, et qu’une fois décrites, elles devront être abordées ensemble, par exemple sur l’utilisation de la ponctuation et sur celle des temps verbaux. Ces résultats sont à relier également aux contextes sociologiques et didactiques (métadonnées) au sein desquels sont produits aussi bien ces écrits que les interventions des enseignants.

Programme détaillé des travaux :

  • T. 5-1 Mise en commun des annotations [mois 12-34]

Cette sous-tâche vise la mise en relation des annotations effectuées au sein des différentes tâches et sous-tâches et le développement des interprétations qu’elles permettent de produire. Il s’agit notamment de :

– Étudier une possible corrélation entre développement des compétences orthographiques et développement des compétences discursives des élèves et des étudiants (annotations produites en T. 2 et T. 3)

– Identifier des effets de cumul et des lieux de figement des difficultés au cours du cursus (en termes de cohérence/cohésion, orthographe, modes de révision, etc.)

– Identifier les lieux d’interrogation qui demeurent et proposer des pistes d’investigations complémentaires pour orienter le recueil de corpus mettant en jeu les éléments mis au jour.

  • T. 5-2 Mise en cohérence de l’outillage méthodologique produit [mois 24-38]

Il s’agit de contribuer à la cohérence des trois guides d’annotation des différents corpus (annotation en matière d’orthographe, de cohérence textuelle et discursive, des interventions des enseignants sur les copies) élaborés par les tâches 2, 3 et 4 et que la tâche 7 rendra accessibles. En particulier, s’assurer que les critères d’analyse développés pour chacun d’eux sont susceptibles d’être appliqués à l’ensemble du corpus.

  • T. 5-3 Mise en relation : corrélations identifiées / variables didactiques et sociologiques [mois 24-38]

Cette sous-tâche vise à mettre au jour des corrélations entre d’une part des écarts dans les compétences rédactionnelles des élèves et des étudiants, et les différents contextes sociologiques et didactiques au sein desquels sont produits ces écrits, d’autre part des différences dans la prise en charge de ces écrits par les enseignants en fonction de ces contextes. Il sera ainsi possible de mettre en relation avec ces contextes les effets de cumuls des difficultés rédactionnelles repérés en T. 5-1.

II.3.6 Tâche 6 – Exploitations du corpus à des fins de formation et d’enseignement

Responsable : C. GARCIA-DEBANC (CLLE)

Partenaires : CLESTHIA (J. David, C. Doquet), CIRCEFT (P. Richard-Principalli, E. Vinel), LIDILEM (C. Brissaud, C. Totereau, F. Rinck), CLLE (M. Bras, C. Dompmartin, V. Paolacci, J. Rebeyrolle)

Période : mois 16-38

Livrables : 1/ document de synthèse inventoriant les indicateurs de compétences en orthographe et en cohérence/cohésion assortis d’exemples de textes d’élèves ou d’étudiants, 2/ propositions didactiques relatives aux démarches, progressions et supports visant une meilleure intégration de la composante orthographique dans le processus rédactionnel de l’école à l’université, 3/ document de synthèse pour outiller le jugement de cohérence des enseignants sur des textes d’élèves manifestant des niveaux de compétences très divers, 4/ modules de formation à l’évaluation testés en formation initiale ou en formation continue d’enseignants, 5/ préparations et analyses de séances de travail sur l’évaluation et la réécriture mises en œuvre dans des classes d’école primaire ou de collège.

Objectifs – En articulation avec les tâches 2, 3, 4 et 5, la tâche 6 a pour objectifs de :

– fournir aux formateurs d’enseignants, aux enseignants et aux décideurs des indicateurs de compétences (bornes basses et bornes hautes) pour différents niveaux scolaires de l’école à l’université et différents contextes, ainsi que des indicateurs de progrès dans la maitrise de la morphographie flexionnelle et dérivationnelle, de la segmentation graphique ainsi que de la cohésion textuelle ;

– informer la question du jugement de cohérence en vue de permettre aux enseignants d’objectiver leur jugement relatif à la cohérence d’un texte en le fondant sur des indicateurs précis et variés ;

– mettre à disposition des formateurs d’enseignants des modules de formation à l’évaluation des productions écrites utilisant un échantillon de textes du corpus ;

– mettre à disposition des enseignants des échantillons de textes d’élèves assortis de consignes de travail exploitables avec leurs élèves pour mettre en place des activités d’évaluation et de réécriture.

Justification de la tâche :

Malgré le temps consacré par les enseignants à la correction des copies et l’importance d’une expertise professionnelle dans ce domaine avec la prescription institutionnelle d’une évaluation par compétences, peu nombreuses encore sont les recherches sur la formation et l’accompagnement à l’évaluation des productions écrites (Jorro 2013 ; Gagnon et al. 2014 ; Elalouf 2016). Elles montrent la persistance d’habitudes anciennes de correction (Elalouf 2016), les difficultés à mettre en œuvre une évaluation formative critériée (Gagnon et al. 2014 ; Jorro 2013), le flou relatif aux jugements de cohérence (Rondelli 2010). Les corpus collectés et mis à disposition ainsi que les résultats de leur analyse constituent des ressources scientifiques permettant d’alimenter des modules pour la formation continue des enseignants (Magistère), à condition de faire l’objet d’une ré-élaboration qui les rende accessibles et utilisables par des enseignants.

Programme détaillé des travaux :

  • T. 6-1 Explicitation et illustration des indicateurs par des extraits de textes du corpus [16-38]

Les indicateurs issus des études sur l’orthographe et la cohérence seront mis en forme de manière à être communicables à des formateurs d’enseignants et à des enseignants. Des échantillons significatifs de textes du corpus permettront de repérer les indicateurs pertinents pour définir différents niveaux de compétences en matière de morphographie verbale, de morphologie lexicale, de segmentation et de cohésion textuelle.

  • T. 6-2 Propositions didactiques pour le travail en orthographe [20-32]

En prolongement des résultats des analyses réalisées en T. 2 et T. 4, seront formulées des propositions didactiques relatives aux démarches, progressions et supports visant une meilleure intégration de la composante orthographique dans le processus rédactionnel de l’école à l’université.

  • T. 6-3 Propositions d’outils de formation pour juger la cohérence/cohésion [20-32]

En prolongement des résultats obtenus en T. 3 et T. 4, seront proposés des outils de formation permettant aux enseignants d’objectiver des jugements de cohérence et de cohésion en se fondant sur des indicateurs précis.

  • T. 6-4 Constitution d’un corpus restreint de textes de CM2 et 6e utilisables en formation [19-24]

Pour un niveau scolaire particulièrement crucial (l’articulation école/collège) seront constitués des échantillons de textes d’élèves permettant de croiser les différents indicateurs de compétences : textes présentant de nombreuses erreurs de morphographie mais une bonne maitrise de la cohésion, textes avec de nombreuses marques de cohésion mais manifestant des problèmes de cohérence, textes cohérents avec un nombre insuffisant de marques de cohésion ou de segmentation graphique. Ce corpus restreint constituera une ressource pour T. 6-5 et T. 6-6.

  • T. 6-5 Élaboration de modules de formation à l’évaluation des écrits [24-38]

Seront élaborés des modules de formation à l’évaluation des écrits s’appuyant sur le corpus restreint constitué en T. 6-4. Ces modules seront mis en œuvre en formation initiale et continue par les différentes équipes partenaires du projet. Ce travail permettra de mettre en regard les critères d’analyse des chercheurs et les critères mobilisés par les enseignants dans la correction de copies. L’analyse des différentes mises en œuvre entrainera des ajustements dans la formulation des consignes ou le choix des textes d’élèves avant diffusion des modules de formation.

  • T. 6-6 Élaboration de séances d’évaluation et de réécriture à mettre en œuvre dans des classes [24-38]

Des textes d’élèves issus du corpus constitué en T. 6-4 seront utilisés pour des activités d’évaluation et de réécriture conduites dans des classes d’école primaire ou de collège. Les textes, les préparations et les analyses de ces séances seront mis à disposition sur le site du projet.

II.3.7 Tâche 7- Diffusion et valorisation des ressources produites

Responsable : S. Fleury (Clesthia)

Partenaires : CIRCEFT (E. Bautier), CLESTHIA (O. Lumbroso, Chiara Mainardi, C. Doquet), CLLE (L.-M. Ho-Dac), LIDILEM (C. Ponton, I. Rousset)

Période : mois 0-42

Livrable : site Web présentant l’ensemble des livrables du projet et mis en relation avec d’autres espaces en ligne, en particulier les sites des équipes partenaires et les outils mis en place dans le cadre de dispositifs didactiques (cf. impact sociétal : III.3).

Objectif : assurer la diffusion et la valorisation de l’ensemble des livrables issus de chacune des tâches du projet E-CALM – corpus retranscrit et annoté, guide de recueil et d’annotation, ressources lexicales, modules de traitement automatique. Toutes nos données et outils seront distribués en accès libre sous licence Creative Commons et déposés sur Ortolang.

Justification de la tâche : notre projet reposant en partie sur le partage des ressources et des analyses qui y seront effectuées, la diffusion et la valorisation doivent faire l’objet d’une tâche à part entière.

Programme détaillé des travaux :

  • T. 7-1 Création et enrichissement progressif du site Web du projet [0-42]

Ce site sera à la fois un outil de valorisation en accès ouvert et un outil de travail en interne au sein du projet avec une partie en accès restreint (cf. tâche 0). Les ressources construites sur les données traitées dans le projet (corpus annoté, lexique de graphies, etc.) seront progressivement mises à disposition sur ce site.

  • T. 7-2 Mise à disposition progressive de l’ensemble des ressources [19-38]

Parallèlement au dépôt sur la plateforme Ortolang (cf. tâche 1.3), l’ensemble du corpus constitué dans la tâche 1 sera archivé et accessible sur le site Web du projet. Ce site présentera l’intégralité des données au fur et à mesure de leur traitement (anonymisation, transcription, mise en relation entre les écrits et les différentes métadonnées collectées). Les écrits seront rendus accessibles par différents opérateurs de tri : caractéristiques des classes (établissement / niveau de classe), des élèves (sexe / parcours scolaire), des écrits (genre / consigne / présence de divers états du texte / interventions du professeur sur les copies). Le corpus sera diffusé avec le guide des bonnes pratiques pour le recueil et le traitement de corpus scolaires mis en place et éprouvé au fil du projet. Les guides d’annotations pour les différents niveaux d’analyse seront diffusés.

  • T. 7-3 Mise à disposition progressive d’outils et de méthodes pour l’exploration du corpus [19-38]

La mise à disposition des ressources sur le site du projet s’accompagnera du développement de modules permettant des traitements informatiques sur ces données. Un premier ensemble de modules concerne l’exploitation des données du corpus E-CALM (cf. tâche 1). Ce type de module est actuellement en cours de test sur les données Ecriscol utilisées dans le projet. Pour le moment, les données du corpus Ecriscol mettent au jour les différentes opérations de réécriture visibles sur le manuscrit original ; les développements envisagés visent par exemple à explorer quantitativement les différents types d’opération de réécriture sur l’ensemble des copies du corpus. Le deuxième ensemble concerne les sous-corpus utilisés et annotés dans les tâches d’analyse (cf. tâches 3 et 4). En effet, ces analyses seront pour partie appuyées par le développement d’outils spécifiques comme, par exemple, la détection des erreurs et/ou des réussites liées à la morphologie verbale dans tel ou tel contexte (cf. tâche 3.1). Le site web du projet offrira la possibilité d’utiliser (ou de télécharger) directement ces outils sur ces corpus pour d’éventuelles autres recherches.

  • T. 7-4 Évaluation et adaptation du site Web [33-42]

Afin de rendre les ressources accessibles aux utilisateurs qui ne sont pas familiers du monde de la recherche, une expérimentation sera proposée à un panel d’enseignants du premier et second degré. Il s’agira de leur demander d’utiliser le site et les ressources pour la construction de séquences pédagogiques et d’analyser ensuite avec eux la facilité d’exploitation de ces matériaux.

Le site et les ressources seront ensuite amenés à évoluer en fonction des retours de cette expérimentation.

III.          Impact et retombées du projet

III.1.        Impact scientifique

L’impact le plus net est l’ouverture de possibilités d’investigations linguistiques inédites sur les produits mais également le processus de production d’écrits (différents états de l’écriture) en milieu scolaire/universitaire. Le changement d’échelle des observations que permet la mise à disposition d’un grand corpus outillé pour les linguistes et les didacticiens leur permettra d’affronter les défis que pose l’apprentissage de la production des textes de l’école à l’université en ouvrant à des analyses qualitatives et quantitatives innovantes.

  • Apports aux analyses de la cohérence textuelle

Les théories de la cohérence du discours ont été jusque là mises à l’épreuve sur des données attestées constituées de textes d’experts, généralement “cohérents”. Toutefois, ces travaux s’appuient généralement sur des tâches très contraintes, du type dictée, et non sur de la production de texte. Leur mise à l’épreuve sur des productions écrites d’apprenants révélant un moindre degré de cohérence permettra de tester leur robustesse, voire de mettre au jour des axes d’améliorations des théories. Une expérience a déjà été tentée pour des textes de scripteurs avec troubles psychiatriques (Rebuschi et al. 2014), mais jamais encore sur des textes d’élèves.

  • Apports aux analyses de l’orthographe

Les nombreux travaux disponibles portant sur l’orthographe et le développement de la compétence orthographique constituent un socle déterminant pour les analyses de la morphographie flexionnelle et lexicale. En s’articulant aux travaux existants, l’exploration outillée de notre corpus de textes d’élèves et d’étudiants contribuera à éclairer, à grande échelle, les variantes orthographiques, leur évolution, leur traitement par les enseignants, ainsi que la question de la gestion et du contrôle de l’orthographe en production de texte quand les ressources attentionnelles sont partagées.

  • Possibilité d’un retour des observations vers la description du système de la langue

La situation d’apprentissage de l’écriture et les difficultés qu’elle révèle permettent de mettre au jour les zones les plus résistantes de la langue qui apparaissent aussi, mais sous forme atténuée, chez les scripteurs disposant d’un haut degré de maitrise de l’écrit. En plus d’investigations linguistiques inédites sur les écrits (brouillons et textes), le corpus et l’outillage constitués rendront possible un regard précis et comparatif sur des éléments de la langue qui auront des conséquences directes sur des catégories linguistiques existantes ; par exemple, le relevé des différentes graphies pour un morphème alimentera l’étude des morphogrammes.

  • Apports à la génétique textuelle

Au-delà de l’étude d’écrits scolaires, le corpus que nous réunissons permettra de revisiter des catégories construites à partir des manuscrits d’écrivains. La génétique textuelle (Lebrave, 2006) décrit les opérations d’écriture comme orientées dans le temps et impactées par le contexte scriptural dans lequel elles interviennent (au sein de la scription vs pendant une relecture). L’approche des écrits d’élèves que nous proposons, théorisée linguistiquement grâce à la notion de co-énonciation (cf. I.2.1), permet de différencier les opérations d’écriture « spontanées », celles que le scripteur effectue de son propre chef – et ce, sachant que le contexte scolaire de l’écriture inclut souvent le recours à des outils scolaires, à des affichages méthodologiques, etc. – d’opérations d’écritures suscitées par les prescriptions et interventions de l’enseignant sur la copie. L’observation de la relation entre intervention de l’enseignant et réponse de l’élève permettra de réinstancier des études énonciatives des manuscrits d’écrivains (Grésillon & Lebrave, 1984 ; Fuchs et al., 1987) et de proposer une méthode d’exploration génétique de l’écriture collaborative.

III.2.        Impact technologique

Les impacts technologiques du projet se situent sur deux plans : le corpus complet et l’outillage.

Concernant le corpus, pour favoriser sa diffusion et faciliter sa réutilisation dans des contextes scientifiques et applicatifs variés, nous avons fait le choix d’aller vers le format TEI. Cette norme est celle adoptée pour divers types de corpus (littéraires, journalistiques, SMS, tweets…) et proposée par la plateforme Ortolang. La définition d’une norme TEI pour les corpus scolaires contribuera à l’interopérabilité en facilitant l’accès à la fois aux contenus des écrits scolaires et aux métadonnées associées. Notre corpus sera ainsi facilement exploitable par des traitements automatiques et par les outils classiques de textométrie qui acceptent tous la norme TEI, permettant ainsi des requêtes portant à la fois sur le contenu, les annotations et les méta-données.

Dans le cadre des analyses menées sur l’orthographe, la cohérence/cohésion et les interventions des enseignants, nous développerons des outils d’aide à la manipulation des données. En effet, une des originalités du projet est de recourir aux technologies relevant du domaine du TAL dans le but d’outiller les tâches de transcription, d’annotation et d’exploitation de ces annotations. Les outils développés à cette occasion seront mis à disposition via le site web du projet et constitueront une première “boite à outils” de traitement automatique ou semi-automatique de corpus scolaires.

III.3.        Impact sociétal

Les livrables projetés contribueront à la construction de nouveaux leviers de lutte contre l’échec scolaire, à destination des enseignants, des formateurs et décideurs de l’Éducation Nationale (formateurs d’enseignants, conseillers pédagogiques, inspecteurs, inspecteurs généraux…) et des instances universitaires. L’objectivation du regard sur les performances, la mise au jour des scénarios de développement des diverses compétences permettront de distinguer la maitrise de l’orthographe de celle de la construction des textes et d’agir de façon appropriée sur chaque compétence. L’état des lieux des performances des élèves et étudiants en production écrite et sa mise en relation avec des caractéristiques sociologiques et didactiques permettront :

  1. pour les acteurs de la formation – y compris dans le domaine de la pédagogie universitaire – et de l’accompagnement des enseignants, de caractériser les inégalités au regard des gestes professionnels des enseignants, notamment la correction des copies, de repérer les gestes les plus appropriés au développement des compétences scripturales tout au long de la scolarité et ainsi de mieux former les enseignants ;
  2. pour les enseignants, de comprendre les scénarios ou modalités de développement des diverses compétences, de mieux identifier les obstacles à l’écriture et donc de produire des propositions didactiques différenciées, adaptées aux différents contextes d’apprentissage ;
  3. au-delà de la sphère enseignante, pour les parents d’élèves et autres acteurs du système éducatif, de mieux comprendre les compétences en jeu par le biais site web du projet qui aura vocation à vulgariser nos travaux.

Le consortium, du fait de ses partenariats existants avec l’Éducation Nationale (Institut Carnot de l’Éducation, établissements primaires en REP, micro-lycées) est assuré de la réalité de ces retombées pour les différents niveaux de la scolarité : primaire, secondaire, supérieur.

III.3.1 Impact dans l’enseignement obligatoire (1er et 2nd degrés) et la formation initiale et continue des enseignants

Nombre de nos livrables seront diffusés à travers les partenariats entre différents membres du projet et les acteurs et décideurs de l’Éducation Nationale. En particulier, le lien entre les performances des élèves et les caractéristiques sociologiques et didactiques des terrains observés permettra de formuler des recommandations pédagogiques adaptées à la diversité des publics, notamment en ce qui concerne les modalités de la correction des copies par les enseignants, en relation avec la reprise-modification des textes par les élèves. Il s’agit d’interroger l’efficience de certaines modalités pédagogiques en fonction des caractéristiques sociologiques des acteurs, pour favoriser l’égalité des chances et l’équité territoriale (notamment envers les milieux ruraux défavorisés qui ont fait l’objet d’une enquête approfondie des équipes Clesthia et Circeft-Escol).

La plupart des membres du projet participent, particulièrement dans le domaine du langage, à la formation initiale et continue des enseignants dans de nombreuses académies, ce qui permettra la diffusion des résultats de nos recherches aux enseignants eux-mêmes. Les relations entretenues depuis de longues années avec les corps d’inspection et les formateurs de terrain facilitera également la diffusion de ces résultats aux niveaux décisionnels, mais également des échanges quant aux possibles modifications de certains domaines de formation et d’enseignement.

III.3.2 Impact dans l’enseignement supérieur

Les universités de la Sorbonne Nouvelle et Grenoble Alpes contribuent toutes deux à l’UOH (Université Ouverte des Humanités) dont une des missions est de favoriser une meilleure réussite des étudiants, notamment en licence. Le niveau « étudiants » du corpus E-CALM servira de base à un étalonnage des compétences en français écrit qui permettra aux enseignants de prendre en compte des besoins attestés pour construire les  cours de méthodologie universitaire et de remédiation à l’écrit dispensés en L1. La recherche multi-critères qui sera possible sur la plate-forme outillée E-CALM fournira des ressources ciblées. Ces ressources seront utilisées à la Sorbonne Nouvelle, en collaboration avec le pôle Validation des Acquis de l’Expérience (VAE) de FCP3 et le pôle TICE/AVI de l’Enseignement Numérique et à Distance (ENEAD) (dirigé par O. Lumbroso, membre du projet) qui apportera son appui humain et logistique pour élaborer des capsules vidéo formatives à usages multiples à partir du corpus et des résultats du projet. Le libre accès au corpus et le premier outillage didactique disponible constitueront également une ressource pour les instances universitaires soucieuses de proposer aux enseignants des outils de formation (par exemple, le Service d’Accompagnement aux Pédagogies Innovantes et à l’Enseignement Numérique – SAPIENS – de Sorbonne Paris Cité et de l’Université Grenoble Alpes). Le Lidilem a déjà fabriqué un cours en ligne autour des compétences rédactionnelles (projet PedagoTice) et a contribué à l’élaboration d’un outil de positionnement pour ces compétences à destination des étudiants entrant à l’université (partenariat UOH) en exploitant son corpus, ce savoir-faire sera capitalisé dans ce projet.

III.4.        Réponse aux enjeux de l’axe 4 du défi 8 et de la SNR

Ce projet s’inscrit dans l’orientation de la SNR Innovations sociales, éducatives et culturelles en ce qu’il vise, à partir d’une ressource en cours d’élaboration, à outiller de manière innovante le regard sur les productions écrites des élèves et étudiants et travaille sur l’écrit comme facteur d’intégration scolaire, donc sociale. Le projet répond aux questionnements de l’axe 4 du défi 8 : (1) en s’attaquant à la description fine d’un apprentissage fondamental, l’écriture ; (2) en envisageant des observations d’une large ampleur : du début de cet apprentissage jusqu’à l’université ; (3) en mettant au jour les facteurs croisés de l’échec et des difficultés scolaires : sociaux, langagiers, mais aussi didactiques. La mise en relation des gestes professionnels et des productions des élèves, notamment concernant la correction des copies, et les orientations qui en découleront s’inscrivent dans la perspective de transformation des pratiques enseignantes.

III.5.        Diffusion et valorisation des résultats

Le projet a vocation à diffuser largement ses résultats aussi bien en direction de la communauté scientifique  que vers la communauté éducative. Cette diffusion prendra donc deux formes.

  1. Fourniture de données et d’un outillage technologique adapté à leur exploitation
  • Mise à disposition sur l’Equipex Ortolang du corpus conforme à la TEI.
  • Mise à disposition sur un site dédié :

– des guides pour le recueil et le traitement de corpus scolaires pour prolongements éventuels par d’autres équipes de recherche ;

– de la ressource annotée à différents niveaux (orthographique, discursif, interventions des enseignants) et des guides d’annotation ;

– des modules d’analyse spécifiques aux écrits des élèves comme les différentes graphies d’une forme ou d’un paradigme, selon les variables contextuelles ;

– des informations régulières aux professionnels concernés.

  1. Diffusion des travaux scientifiques
  • Édition de numéros de revues scientifiques à comité de lecture : Revue Française de Pédagogie (éd. ENS/IFE) et Written Language & Literacy (ed. Benjamins).
  • Organisation d’une journée d’études à mi-parcours et d’un colloque international à la fin du travail.
  • Rapport à destination de l’Inspection Générale (1er degré et 2nd degré Lettres) sur l’évolution des compétences scripturales, assorti de préconisations curriculaires et didactiques.
  • Actualisation des outils institutionnels d’évaluation des écrits d’élèves.
  1. Diffusion des résultats auprès du grand public et des professionnels :
  • Construction d’un site internet du projet, avec informations régulières aux professionnels concernés sur la publication d’études à partir du corpus réuni.
  • Outils didactiques et formation des enseignants :

– articles dans des revues professionnelles et à l’interface (Cahiers pédagogiques, Le français aujourd’hui) ;

– proposition de scénarios didactiques basés sur des extractions de corpus et un guidage des observations ;

– production d’un ouvrage collectif consacré au guidage de la réécriture et au geste de la correction ;

– exploitation du corpus comme matériau de travail pour les étudiants dans le cadre des dispositifs d’aide à la réussite en licence et pour les formations à distance et outils d’auto-positionnement (Université Ouverte des Humanités, Institut de Formation de la Sorbonne Nouvelle).