Dans cette section, nous proposons une définition des systèmes de dialogue (SD). Ces systèmes visent à reproduire des conversations d’humain à humain. Nous présentons les propriétés des conversations entre humains nécessaires à la compréhension des choix effectués dans la conception de SD (Jurafsky et Martin, 2014). Nous définissons les SD en général puis ceux appliqués aux échanges vocaux et textuels.
Dialogues humain-humain
Des éléments de conception des SD reposent sur des études philosophiques et sociologiques relatives aux interactions entre humains dans le cadre des conversations. Dans cette section nous définissons les concepts d’« actes de langage » et de « tours de parole » dans les conversations.
Acte de langage
L’acte de langage donne une interprétation de haut niveau d’un énoncé en langage naturel. Cette notion a été introduite en 1962 par le philosophe John L. Austin (1962): « Dire c’est faire » . Il propose d’associer l’énoncé d’un intervenant dans un dialogue à un acte pouvant avoir un effet dans une conversation, sur les autres interlocuteurs et sur l’environnement en général. Considéré comme un acte associé au langage, il est aussi composé d’un but, un prérequis, un corps et un effet. Il oppose d’abord, l’acte constatif à l’acte performatif. L’acte constatif a une fonction de description : on peut associer à ces énoncés une valeur de vérité. Alors que l’acte performatif décrit l’énoncé comme une action qui peut réussir ou échouer si elle est exécutée.
Par la suite, John L. Austin (1975) propose une classification approfondie décrivant un énoncé selon trois types d’actes : locutoires, illocutoires et perlocutoires. L’acte locutoire est le simple fait de dire quelque chose. L’acte illocutoire représente une intention (verdictive, promissive, exercitive, comportementative ou expositive) exprimée par le locuteur. L’acte est dit perlocutoire, si son énonciation par le locuteur a produit un effet sur son interlocuteur ou sur l’environnement , Finalement, un acte de langage donne une représentation de l’intention d’un locuteur dans une conversation indépendamment de son contenu sémantique. On décrit en général un acte de langage par sa fonction illocutoire.
John R. Searle (1969) reprend ces travaux et approfondit le concept illocutoire, en produisant une classification selon cinq types d’actes de langages : assertifs (expression de l’engagement du locuteur), directifs (expression de la volonté ou de désir que l’interlocuteur réalise quelque chose), promissifs (engagement dans une action), expressifs (expression d’un état psychologique) ou déclaratifs (affirmation d’une réalité sur le monde).
Tours et prise de parole dans une conversation
Un dialogue est par définition un ensemble d’échanges tenus entre des individus. La conversation est articulée selon des tours de parole entre les intervenants. Les études s’orientent selon deux axes : la détermination d’une structure générique de la conversation et la proposition de solution pour déterminer la fin d’un tour de parole. La discipline de l’Analyse Conversationnelle (AC), dont Harvey Sacks est le fondateur, vise à étudier les comportements des interactions dans une conversation. Contrairement aux idées présentées jusqu’alors, l’AC estime que ces tours de parole sont dirigés et ordonnés. Dans leurs travaux, Harvey Sacks, Emanuel A. Schegloff et Gail Jefferson, les trois pionniers du mouvement, décrivent un ensemble de règles génériques et systémiques régissant les conversations entre individus (Sacks et al., 1974). Les différentes règles et critères présentés permettent de décider qui doit ou peut parler par la suite. La détermination de la fin d’un tour de parole et du passage de la parole est étudiée selon les indices suivants :
• les silences : l’étude de la durée d’un silence à la suite d’un énoncé ;
• l’intonation de la voix : donne la parole à quelqu’un ;
• le langage corporel : désigner la personne à qui la parole est donnée.
Ces notions sont centrales dans la conception de SD. En particulier dans ceux utilisant la voix, où la détermination de la fin d’un tour de parole est une problématique étudiée dans les systèmes de reconnaissance vocale (Raux et Eskenazi, 2012).
Définition d’un système de dialogue
Un système de dialogue est un programme informatique capable de converser de manière naturelle, cohérente et structurée avec un humain (McTear, 2002). Il existe différents modes d’interaction : les interfaces graphiques, la voix, le texte, les expressions corporelles ou les expressions du visage. Ces modes peuvent aussi être combinés (systèmes multimodes). Dans le cas particulier des échanges textuels ou vocaux, la littérature utilise différents termes pour définir les systèmes : agents conversationnels (Jurafsky et Martin, 2014), interfaces conversationnelles (M. Smart, 2016) ou les systèmes de dialogue parlé (McTear, 2002) pour les échanges vocaux.
D’un point de vue théorique, l’ambition principale des SD est de reproduire des dialogues d’humain à humain pour permettre à un utilisateur de communiquer plus librement avec un système. Les interfaces graphiques actuelles imposent à l’utilisateur une interaction et des échanges déterminés qui impliquent l’appropriation par l’utilisateur des fonctions du système. Or, le langage naturel ne nécessite pas d’apprentissage au préalable et permet un échange plus souple (Lison et Meena, 2014).
Cependant dans l’application, permettre à un utilisateur de s’adresser librement et de se faire comprendre par un système relève de nombreuses problématiques concernant les tâches de : reconnaissance de l’entrée dépendante du mode considéré, compréhension du langage naturel, gestion de la conversation, génération d’une réponse et restitution à l’utilisateur dans le mode choisi.
INTRODUCTION |