<:en-tête:>

 

    Autoformation et multimédia    Didactique    Linguistique    Ingénierie de formation

Les 5èmes Journées de Linguistique de Corpus, Universite de Bretagne sud, Lorient, 13 - 15 septembre 2007

Compte-rendu d’Eva Schaeffer-Lacroix
 

Les domaines principaux représentés aux "5èmes Journées de la Linguistique de Corpus" à Lorient étaient la linguistique de corpus, l’informatique et l’analyse de discours appliquée aux corpus. Deux exposés, celui d’Alex BOULTON et le mien, avaient comme dominante la didactique de L2. Quelques exposés ont montré l’implication des chercheurs dans un projet ayant un enjeu politique (Thomas LEBARBÉ : création d’une base de données plurilingue dans le domaine du droit ; Anna Maria DIAGNE et Paul MURAILLE : création d’un dictionnaire unilingue wolof et d’un dictionnaire wolof - français).

Le président de l’université et le directeur de l’UFR de lettres, langues, sciences humaines et sociales et Geoffrey WILLIAMS ont introduit les journées d en présentant la linguistique de corpus comme un moteur pour les sciences humaines et sociales. L’enseignement des langues à l’université de Bretagne Sud semble actuellement évoluer grâce au renforcement de la composante linguistique de corpus.

Le jeudi 13 septembre, André SALEM de Paris 3 a ouvert le colloque par une séance plénière intitulée "L’approche textométrique des corpus textuels". Il a recommandé une vision globale du corpus et de son exploitation et il a déconseillé de sous-traiter certaines étapes de travail. Après avoir donné un aperçu des possibilités de se faire assister par l’ordinateur pour corriger, lire, dicter, résumer et traduire des textes, le chercheur a présenté de nouvelles méthodes d’exploration et d’analyse de textes. Une analyse textuelle sur corpus offre la possibilité d’objectiver un commentaire par des données vérifiables. Selon A. Salem, il est actuellement encore difficile de repérer de façon automatique un thème dans une base textuelle. Des outils comme les Tgen (Types généralisés) sont en mesure de détecter comment les unités sont réparties dans un texte. Ceci permet d’observer le contexte d’un mot et de découvrir ses résonances, à savoir son empreinte spécifique liée à l’intertextualité (exemple : le caractère archaïsant de "Ainsi" en début de phrase). L’utilisation d’un terme dépend également du genre dans lequel il est employé : il n’y a pas le même degré de liberté d’extension de sens pour les routines que pour les textes littéraires. Pour analyser un texte, il convient d’éviter une indexation trop importante. L’exploration statistique d’un texte doit se garder de partir d’hypothèses qu’elle cherchera ensuite à prouver : il doit rester possible de trouver des choses auxquelles on ne s’attendait pas.

Mathieu VERNIER a présenté un exposé intitulé "Discours évaluatif et suivi d’opinion". Avec un autre informaticien et un linguiste, il a développé un outil permettant de repérer des opinions que des utilisateurs de produits (culturels ?) commerciaux ont exprimé sur la Toile. Un corpus de critiques da permis d’élaborer des catégories suivantes : séquences lexico-grammaticales ("C’est un livre qui..."), sémantique (pleurer, rire, etc.), emprise, stratégie énonciative (prise en charge, concession, intensité). Les trois auteurs de l’outil (VERNIER, FERRARI et LEGALLOIS) ont ensuite élaboré une méthodologie de détection de l’opinion, basée sur les catégories suivantes : avis positifs (valeur 2), négatifs (valeur 0) et mitigés (valeur 1). La partie qui, selon les chercheurs, était la plus difficile à traiter était celle des avis mitigés. Les jeux d’opposition sont à prendre en compte, car un même texte peut comporter des avis de nature variée. Il est proposé aux auteurs de prendre davantage en compte la structure argumentative des avis.

Olivier BAUDE de l’université d’Orléans a communiqué sur le sujet "Contributions des corpus oraux à la linguistique de corpus : une démarche réflexive intégrée". Il a présenté un vaste panorama des types de corpus oraux depuis les années 60. Les premiers corpus ont été faits en dialectologie et anthropologie / ethnologie, ensuite en sociolinguistique. Depuis les années 90, les corpus oraux ont pris de l’ampleur. O. Baude a précisé le statut actuel des corpus oraux en France : ils sont reconnus et considérés comme importants, mais il règne une certaine méfiance concernant leur utilisation. Beaucoup de corpus oraux sont élaborés, mais jamais rendus accessibles. Il n’y a quasiment pas de grand corpus oraux en France, mais beaucoup de petits corpus, créés à l’initiative d’institutions. Un débat concernant l’usage de tels corpus existe actuellement en France (Mondada, Blanche-Benveniste). L’université d’Orléans est en train de créer le corpus ESLO2 (L’Enquête socio-linguistique), conçu comme un corpus oral prototypique. Ce corpus a trois niveaux : les données brutes, les données sélectionnées pour des chercheurs et les données offertes au grand public, avec garantie de l’anonymat pour les dernières.

Estelle DUBREIL de l’université de Nantes a fait un exposé ayant comme titre "Proposition de typologie argumentative des collocations textuelles". Elle y a défini les collocations comme entités dynamiques auxquelles il est possible d’appliquer les critères de figement et de (non)transparence. La chercheuse distingue les courants des lexicographes / lexicologues et des contextualistes. Sa démarche s’inscrit dans la tradition lexicographique de Mel’čuk (2003) : la modélisation est recherchée. Elle s’intéresse à la motivation sémantique et aux régularités sémantiques (renforcement, convergence de polarité, etc.). Les recherches de E. Dubreil apportent une contribution dans le domaine de la motivation argumentative, par exemple concernant les stéréotypes actualisés.

L’exposé d’Alan PARTINGTON, "Corpus-Assisted. Discourse Studies (CADS) : the armchair and the machine", a montré des perspectives d’utilisation des corpus qui dépassent une simple observation et une simple préoccupation autour de la perfectionnement d’un outil. Ce chercheur a relevé la tendance de certains linguistes de corpus de se contenter d’observer des données et de négliger la théorie. Il préconise un va-et-vient entre théorie et empirisme. A. Partington présente quatre stades de connaissance scientifique. Le premier stade est celui où le savoir est garanti par une autorité (Aristote). Le deuxième stade est marqué par le rationalisme et l’introspection (Descartes), le troisième par une méfiance vis-à-vis de la théorie et la prédominance de l’observation des données (Bacon). Il se distingue par un manque d’expériences. Le quatrième stade préconise une interaction herméneutique entre théorie et observation. A. Partington montre le lien qui existe entre les nouvelles technologies et les théories qu’il appelle "theories of machine and mind". La combinaison entre les résultats statistiques de la linguistique de corpus et l’analyse détaillée de l’analyse de discours permettent de mettre à jour des significations autrement cachées ("non-obvious meanings"). Les CADS (Corpus-Assisted. Discourse Studies) ne nécessitent pas forcément de très grands corpus, mais plutôt des corpus très spécialisés, créés pour des besoins spécifiques. Le principe de comparaison est primordial. Les questions de recherche peuvent être, entre autres, du type "Comment le politicien X atteint-il un objectif Y par le biais de son discours ?". Les CADS sont intimement liées à la liberté de penser. L’introspection n’y est pas rejetée, mais les intuitions doivent être étayées par des données observables.

Lors de son exposé, "Esprit de corpus : promouvoir l’exploitation de corpus en apprentissage des langues", Alex BOULTON a posé le cadre général des recherches en didactique de L2 et corpus. Il a parlé de la nécessité de faire des recherches empiriques, surtout quantitatives, dans le domaine. Ces recherches ne doivent pas négliger les spécificités de l’enseignement des langues en France. Cet enseignement reste relativement traditionnel et accorde une place importante à l’enseignant. Selon A. Boulton, ceci rend difficile l’application des principes du DDL (Data Driven Learning) : Johns préconise l’accès direct des apprenants aux données, ce qui modifie considérablement le rôle de l’enseignant qui, jusqu’à présent, a sélectionné et retraité les données pour les apprenants. A. Boulton a présenté un aperçu des études quantitatives et qualitatives concernant l’enseignement/apprentissage de L2 et l’utilisation de corpus. Seulement deux des études présentées ont été faites avec un public de l’enseignement secondaire, et seulement deux avec des faux-débutants. Les autres recherches ont été effectuées à l’université et/ou avec un public de niveau soit intermédiaire, soit avancé. Les objets de la recherche ont été les attitudes des apprenants face au travail basé sur des corpus et les pratiques d’enseignement/apprentissage. Des productions et des tests ont été analysés. Une seule étude présente des travaux dans le domaine de la production écrite (Cresswell, 2007). Quatre concernent l’enseignement/apprentissage du lexique, deux les collocations, deux la détection de patterns, deux la correction d’erreurs. A. Boulton défend le point de vue que le DDL n’est pas une méthode en soi et qu’il convient de le rattacher à d’autres approches et méthodes. Il paraît souhaitable de former les formateurs et d’intégrer des matériaux liés au DDL dans les manuels scolaires. Selon A. Boulton, en Angleterre, le DDL a déjà trouvé son entrée dans le programme officiel de l’enseignement des L2. André Salem fait remarquer que l’enseignement/apprentissage de L2 en dehors de l’Europe présente des avancées dans le domaine du DDL et qu’une veille technologique mondiale semble indiquée.

Références :

CRESSWELL, (2007) :

MEL’ČUK, (2003) : "Collocations : définition, rôle et utilité",

GROSSMANN, Françis & TUTIN, Agnès (dir.) : Les collocations : analyse et traitement. Amsterdam, Éditions De Werelt, pp. 23-32.

Corpus : ESLO2 (L’Enquête socio-linguistique) http://www.univ-orleans.fr/eslo/