Les données empiriques : un corpus de dialogues
1 Le corpus
Objectifs Nous avons décidé de réaliser notre travail de recherche en utilisant un corpus de données afin de rester concentrés sur des phénomenes attestés. En effet les travaux sémantiques se penchent généralement sur des problèmes linguistiques complexes et délaissent les questions jugées triviales. Ici sans présumer de ce qui est intéressant ou pas, nous avons étudié le corpus avant de cibler le travail sur quelques aspects bien représentés.
Nous avons vu au chapitre 1 que l’objectif principal de ce document publié sur clicours.com est de modéliser la cohérence du discours. Dans le cas de textes écrits, les humains s’accordent généralement bien sur l’acceptabilité des passages ou des énoncés fabriqués pour les besoins d’une expérience. Créer des exemples artificiels de dialogue est une tâche plus périlleuse et l’accord sur les exemples acceptables est plus difficile a établir. L’usage d’un corpus de données nous évite ces problèmes embarrassants. Notre méthode consistera en une premiere analyse a priori, aussi détachée que possible de tout cadre théorique afin de déterminer quels sont les phénomènes quantitativement significatifs qui méritent d’ˆetre étudiés en priorité. Nous commencerons sur cette a base a faire des hypotheses de modélisation et a les développer dans le cadre formel choisi (voir chapitres 1 et 3).
L’étape suivante consistera a la vérification de l’adéquation de notre modélisation sur le corpus. Nous n’effectuerons pas de traitement ou d’analyse statistiques a proprement parler mais nous utiliserons l’aspect quantitatif pour nous guider sur les questions principales.
Choix du corpus des dialogues entre humains
De nombreuses raisons nous ont conduits a la constitution d’un corpus de dialogue homme homme (H-H). Tout d’abord pour développer des systemes informatiques de dialogue, il est important d’étudier de vraies interactions H-H afin de pouvoir améliorer les systemes existants (H-M) vers plus de naturel. En effet, l’étude de dialogues homme-machine ne suffit pas puisque, comme le souligne 25 Les donn ées empiriques : un corpus de dialogues [Luzzati, 1989], l’utilisateur modifie son comportement face a la machine.
Pour ne pas se limiter aux problemes lies a l’interaction entre l’utilisateur et le systeme et depasser le cadre imposé par ces situations de communication, il nous a paru indispensable de considerer l’etude de dialogues H-H. C’est de cette maniere que des interactions plus riches et plus naturelles pourront etre ˆ envisagees. Les etudes suivantes [Bilange, 1991, Ozkan, 1994, Colineau, 1997, Salmon-Alt, 2001, Landragin et al., 2002] orientees vers la mise en œuvre informatique mettent en évidence l’utilité de l’etude de tels corpus. Ensuite, le dialogue humain est un sujet d’etude en soi, crucial pour la linguistique.Certaines etudes necessitent l’annotation de larges bases de donnees a l’aide d’outils évolues et automatises (ou semiautomatises), mais aussi pour l’ensemble des sciences cognitives.
Les travaux s’inspirant sur les modeles de l’interaction naturelle pour enrichir les protocoles de communication entre agents artificiels [Labrou et Finin, 1998, Amgoud et al., 2000] en sont de bons exemples. Des dialogues finalises Le choix de dialogues finalises (orientes vers la realisation d’une tache) ˆ s’est imposé pour de multiples raisons. Tout d’abord comme le souligne [Borillo, 1994] le dialogue finalisé constitue un genre de discours assez bien specifi é ou la complexité de la communication humaine est reduite par rapport au cas gen eral. Le lexique et la variet é des interactions sont beaucoup plus contraints dans ce cadre. Les participants et leurs objectifs sont plus faciles a idealiser et a caracteriser . Ces dialogues entrent par consequent dans la catégorie des discours contraints(bound discourse) [van Kuppevelt, 1995] qui s’opposent aux discours libres (unbound discourse) tres reticents a toutes formes de gen eralisation.
Ces dialogues sont également plus facilement controlables ˆ par les experimentateurs que la conversation libre. Enfin, le dialogue finalisé et standardisé est un type de communication de plus en plus en plus utilisé par les humains (entre eux) et la linguistique ne peut ignorer ce type de communication, sans risquer de se priver d’un terrain d’etude fertile [Borillo, 1994]. Des dialogues d’explication d’itinerair e Nous nous sommes penches sur le cas des dialogues d’explication d’itineraire car leurs aspects semantiques sont limites a un domaine dej a bien etudi e, notamment dans notre equipe [Asher et al., 1995], [Muller, 1998]. En outre, de nombreuses etudes ont et é realis ees sur lesitineraires et leur explication, en particulier sur leur structuration au niveau spatial [Denis, 1997, Gryl, 1996] et sur celle des dialogues eux-memes ˆ [Psathas, 1991, Golding et al., 1996]. Nous esperions que cette forte structuration des itineraires nous aiderait dans la determination de la structure de coherence du dialogue elle-meme.