<:en-tête:>

 

    Autoformation et multimédia    Didactique    Linguistique    Ingénierie de formation

Apports de la textométrie pour l’analyse de corpus d’interactions verbales entre adulte et enfant au cours de l’acquisition du langage

Notes sur la soutenance de thèse de Luiggi Sansonetti du 4 décembre 2010.
 

Le 4 décembre 2010, Luiggi Sansonetti a soutenu sa thèse en lexicométrie, intitulée Apports de la textométrie pour l’analyse de corpus d’interactions verbales entre adulte et enfant au cours de l’acquisition du langage. Cette thèse a été dirigée par André Salem. Le jury était composé comme suit :

Michel Bernard, professeur des universités, université Paris 3 Sorbonne Nouvelle ;

Emmanuelle Canut, expert, université Nancy 2 ;

Christophe Parisse, chargé de recherche Inserm ;

André Salem, professeur des universités, université Paris 3 Sorbonne Nouvelle ;

Mathieu Valette, professeur des universités, Inalco (Institut national des langues et civilisations orientales).

La soutenance a eu lieu à l’ILPGA (institut de linguistique et phonétique générales et appliquées), Paris.

Après avoir fait des études de lettres, latin et grec ancien, Luiggi Sansonetti s’est tourné vers les sciences du langage pour enfin concentrer ses recherches sur le TAL (traitement automatique du langage) mis au service de l’acquisition du langage chez les enfants. Sa question de recherche initiale correspond aux besoins de l’époque à laquelle il a commencé sa thèse, en 2000 : comment normaliser des données audio transcrites, disponibles sous forme de corpus numérisés afin de pouvoir les archiver et les exploiter ? Il existe alors peu d’études qui proposent la combinaison TAL et acquisition à laquelle s’intéresse Luiggi Sansonetti. Il teste d’abord plusieurs logiciels susceptibles de permettre l’analyse des interactions verbales qui transcrivent des situations d’acquisition du langage. Au logiciel Clan, utilisé déjà pendant les années 90 pour analyser les interactions dans les corpus du projet Childes (Child Language Data Exchange System), s’ajoutent les logiciels d’analyse textuelle et d’étiquetage Lexico3 (Fleury, Lamalle, Martinez et Salem, 2003) et Cordial analyseur (nd). Luiggi Sansonetti exploite leurs fonctionnalités pour ses besoins d’analyse spécifiques. Il combine plusieurs logiciels pour étudier deux corpus longitudinaux qui attestent l’acquisition du langage. Apparaissent alors des problèmes d’interopérabilité entre logiciels destinées à des tâches variées (traitement de l’oral, étiquetage, etc.). Cela amène le chercheur à créer en 2007 le programme intermédiaire Anacaliseur (archivage, normalisation et analyse de corpus d’acquisition du langage), destiné à préparer les corpus à l’interopérabilité.

Luiggi Sansonetti décrit sa recherche comme aussi bien quantitative que qualitative. Ses corpus de travail ont été construits par une étudiante en licence. Une même adulte y interagit avec deux enfants différents. L’observation quantitative porte, entre autres, sur le choix de l’imparfait ou du passé composé et sur le lien entre les occurrences de "parce que" et de "pourquoi". Les futures recherches possibles évoquées par Luiggi Sansonetti sont la prise en compte du texte illustré comme support lors d’interactions verbales, la comparaison d’outils d’étiquetage de données et l’étude du lien entre les options de logiciels et les divers niveaux d’analyse.

Suite à l’exposé de Luiggi Sansonetti, André Salem, directeur de recherche, explique que lors des débuts des travaux du futur docteur, la communauté des chercheurs en sciences du langage a pris conscience qu’il faut informatiser les données et faire des statistiques. Il s’est avéré nécessaire d’arriver à identifier les unités qui circulent dans un corpus. Les poéticiens recherchent autre chose que les spécialistes en politique. André Salem salue le travail honnête et respectueux des autres chercheurs que Luiggi Sansonetti a mené dans ce domaine, et il relève sa bonne articulation des méthodes.

Mathieu Valette, linguiste de corpus à l’Inalco, félicite Luiggi Sansonetti de son savoir-faire technique et de sa façon ingénieuse d’aborder et de résoudre des problèmes. Il estime que la jonction entre textométrie, linguistique de corpus et acquisition est bien faite. Cependant, Mathieu Valette trouve la définition de corpus du chercheur trop ouverte et ses corpus trop petits. Il aurait aimé voir davantage de statistiques dans la thèse.

Michel Bernard prend ensuite la parole. Il précise qu’il a utilisé des outils lexicométriques pour étudier des manuscrits littéraires et des transcriptions phonétiques. Selon Michel Bernard, Luiggi Sansonetti a su rationaliser et rendre opérables les données. Il a unifié les logiciels. Ce professeur regrette l’absence d’exploitation des données à l’aide de la fonction "calcul des spécificités" de Lexico3. Il précise que cela aurait permis de mieux rendre compte des résultats en fonction de la taille des corpus.

Emmanuelle Canut, spécialiste en acquisition du langage, fait un retour en arrière afin de démontrer la pertinence des travaux de Luiggi Sansonetti. Elle le considère comme un précurseur dans un domaine où les recherches quantitatives pourraient compléter avantageusement les méthodes de travail qualitatives. Emmanuelle Canut regrette que Luiggi Sansonetti ne se soit pas davantage appuyé sur Vygotski pour analyser les interactions, et elle lui demande pourquoi il n’a pas plus travaillé sur la syntaxe, ni sur les essais, donc les tentatives de formulation. Ces éléments doivent être repérés par les humains, et il serait précieux de pouvoir se faire aider par des outils.

Christian Parisse, spécialiste en acquisition du langage, informaticien de formation, se montre très intéressé par le travail de Luiggi Sansonetti. Il encourage le chercheur à publier une version courte de sa thèse qui mettrait l’accent sur la façon dont les chercheurs pourraient s’emparer des outils présentés par le futur docteur pour exploiter des données dans le domaine de l’interaction verbale. Il invite Luiggi Sansonetti à relever ce qui manque dans les logiciels. Il précise que les corpus de Childes se sont beaucoup agrandis en dix ans et qu’il y a maintenant également des données vidéo. À son avis, il serait précieux d’utiliser le système de Luiggi Sansonetti pour étudier cette grande quantité de données.

J’ai assisté avec beaucoup d’intérêt à la soutenance de thèse de Luiggi Sansonetti. Ce chercheur a relevé le défi de réduire le fossé qui sépare la recherche en informatique de la recherche en acquisition du langage. Une telle démarche semble être amorcée également par Thomas Schmidt de l’université de Hambourg en Allemagne, qui a développé EXMARaLDa (Extensible markup language for discourse annotation), "un système de formats et outils pour la transcription et l’annotation de la langue parlée, et pour la constitution et l’analyse de corpus oraux" (Schmidt, 2010). Plusieurs projets de recherche en acquisition ont été menés à l’aide de cet outil, comme en témoigne le site de l’unité de recherche de l’université de Hambourg Simultaneous and Successive Bilingual Language Acquisition [Acquisition du bilinguisme simultané et successif]. Une deuxième remarque : je n’ai pas entendu parler, lors de la soutenance, de l’IMDI (ISLE Meta Data Initiative) du Max Planck Institut. Ce projet a pour souci de rendre les données multimodales interopérables à un niveau mondial. Les travaux de Luiggi Sansonetti pourraient peut-être s’insérer dans ce projet, si ce n’est pas déjà fait.

Si je considère les travaux de Luiggi Sansonetti en tant que didacticienne et linguiste de corpus, je constate - il l’a d’ailleurs lui-même confirmé suite à la question de Michel Bernard concernant son positionnement épistémologique - que son point de vue principal est celui d’un informaticien. Sous cet angle, la comparaison de l’emploi de "pourquoi" et de "parce que" par l’adulte et par les enfants est compréhensible : ces éléments sont faciles à repérer par l’outil informatique, et l’hypothèse concernant leur distribution chez l’adulte par rapport à l’enfant paraît évidente à faire et à vérifier. En didactique, cette comparaison n’est pas aussi pertinente car elle ne s’appuie pas sur des questions en lien avec le terrain observé. Emmanuelle Canut a relevé le choix que Luiggi Sansonetti a fait d’étudier le lexique, également facile à identifier puisqu’il se constitue d’un ou de plusieurs éléments qui se suivent, plutôt que de faire des études dans des domaines qui auraient été pertinents du point de vue des travaux récents en acquisition, mais qui sont plus épineux à repérer par la machine, comme la syntaxe et les essais. Cela s’explique peut-être par les stades de développement encore précoces des outils d’analyse. Le jury a, d’ailleurs, clairement exprimé sa certitude que l’on pourra compter sur Luiggi Sansonetti pour parfaire les fonctionnalités des outils.

Mathieu Valette a relevé le fait que Luiggi Sansonetti n’a pas lui-même testé sur un enfant le protocole employé pour constituer le corpus. Si l’on aspire à réduire l’écart entre l’informatique et l’acquisition, il est, à mon avis, important d’appréhender, dans une certaine mesure, l’autre domaine. Un chercheur en acquisition doit alors accepter de faire des comptages et des statistiques et d’établir des protocoles de recherche clairement définis et vérifiables, et un chercheur en informatique doit prendre le risque d’"attraper la varicelle", argument humoristique avancé par le futur docteur expliquant pourquoi il n’a pas choisi d’aller davantage à la rencontre du vivant. Il est vrai que cette rencontre complique les protocoles de recherche et qu’elle oblige parfois à y rajouter des paramètres dits "non contrôlables". Toutefois, ce sont ces paramètres-là qui rendent la recherche pertinente au-delà des statistiques et des schémas, en tout cas du point de vue de ceux qui ont pour ambition de mener une recherche impliquée et engagée.

Références

Cordial analyseur (nd). Programme d’analyse de la langue française, distribué par la société Synapse Développement, Toulouse. http://www.synapse-fr.com/Cordial_Analyseur/Presentation_Cordial_Analyseur.htm

Fleury, S., Lamalle, C., Martinez, W. & Salem, A. (2003). Lexico3. Outils de statistique textuelle. Paris : Université Paris 3. http://www.cavi.univ-paris3.fr/Ilpga/ilpga/tal/lexicoWWW/

IMDI (2007). http://www.mpi.nl/imdi/

Sansonetti, L. (2007). Programme Anacaliseur. http://www.luiggisansonetti.fr/projet_anacal/

Schmidt, T. (2010). Site Internet présentant EXMARaLDa.http://www.exmaralda.org/fr_index.html

Simultaneous and Successive Bilingual Language Acquisition (nd). Unité de recherche de l’université de Hambourg. http://www.exmaralda.org/corpora/en_sfb_e2.html