Segmentation en mots

Article source « SCOLINTER : un corpus trilingue. L’exemple de la segmentation en mots », Claude Ponton, Rafaela Gutiérrez-Cáceres, Lilia Teruggi, Elisa Farina, Catherine Brissaud, Claire Wolfarth, dans Langue française 2021/3 (N° 211), pages 37 à 50

Prémisses : la séparation entre les mots a été introduite tardivement dans les systèmes d’écriture pour faciliter la compréhension des textes. D’une part, elle ne se produit pas de la même manière dans les différentes langues ; d’autre part, elle ne reflète pas les segmentations de la parole (Correa & Dockrell 2007). De plus, la capacité à séparer les mots à l’écrit va au-delà de la compréhension du principe alphabétique.

Spécificités du corpus

Les résultats suivants ont été élaborés à partir d’un corpus trilingue (français, espagnol, italien) d’élèves à la fin de la première année de primaire.

Résultats

1.L’hyposegmentation est le phénomène le plus fréquent dans les trois langues : 69.46 % des textes concernés en italien ; 61.84 % en espagnol et 54.35 % en français contiennent au moins un cas d’hyposegmentation ; 2.les textes français, contrairement aux textes espagnols et italiens, présentent des pourcentages plus élevés de segmentation conventionnelle mais sont aussi nettement plus courts ; 3.En comparant les trois langues, le type d’hyposegmentation constitué de deux formants est le plus fréquent. Cependant, cette analyse montre un pourcentage plus élevé dans les textes français et espagnols de segmentations composées de trois, quatre ou cinq formants. Dans ce cas, le style de graphie adoptée (cursive, script, majuscules) pourrait affecter le nombre de formants hyposegmentés : alors que les textes italiens sont principalement écrits en majuscules, les textes français et espagnols sont principalement écrits en cursive.