Réordonnancement de candidats reponses pour un système de questions-réponses

Réordonnancement de candidats reponses pour un
système de questions-réponses

Etude de différentes méthodes applicables pour le réordonnancement 

Si certaines des approches présentées dans cette section ne sont pas utilisées dans des modules de réordonnancement (re-ranking) à proprement parler, elles ont toutes en commun d’appliquer des méthodes assez fines de calcul de score, contrairement à celles utilisées pour extraire les documents ou passages. C’est ce type de méthodes que nous voulons utiliser dans notre module de réordonnancement. Nous nous intéressons donc aussi à des approches de sélection et extractions de réponses, et à des approches d’implication textuelles. Pour chaque méthode présentée, nous motivons son étude par rapport à nos objectifs et à notre contexte de travail. Nous détaillons aussi le système de questions-réponses associé. Nous estimons en effet qu’il est important de comprendre le contexte d’application pour présenter l’approche utilisée. Enfin, nous concluons sur les caractéristiques de la méthode, et son intérêt pour un module de réordonnancement. Par ailleurs, certaines de ces approches s’appuient sur un formalisme spécifique de représentation des documents qui est détaillé plus loin dans la section 3.2

Utilisation de dépendances syntaxiques dans le cadre du web : le système FIDJI

 FIDJI [Tannier & Moriceau ] est un système de questions-réponses développé au LIMSI au sein du groupe ILES. A l’origine, le système avait été défini pour traiter des collections de documents propres, comme des documents journalistiques. Ce système (tout comme Ritel) participe à la tâche questions-réponses du projet Quaero [Quintard et al. ], que nous décrivons plus loin dans ce document (chapitre 6). Cette tâche a pour objectif d’évaluer les systèmes participants sur un corpus de très grande taille (2 millions de documents) extrait du web par le biais d’un moteur de recherche. Les documents tirés du web amènent des caractéristiques assez particulières, que les systèmes doivent prendre en compte pour être performants sur ce type de collection. L’objectif de FIDJI est de mettre au point une approche efficace ne reposant pas sur des ressources sémantiques, et avec un minimum de pré-traitements effectués sur les documents. FIDJI traite deux types de questions : factuelles et complexes (pourquoi et comment). Dans cette section, nous ne décrivons que la méthode utilisée pour résoudre les questions factuelles. FIDJI n’inclut pas de module de réordonnancement. Par contre, l’approche employée pour l’extraction des réponses candidates nous semble intéressante car elle s’appuie sur des dépendances syntaxiques, représentant ainsi l’organisation structurelle des phrases et des questions. De plus, cette approche est appliquée dans le contexte du web, où la variabilité de la structure des phrases des documents est très différente de celle de documents journalistiques. Nous expliquons d’abord le fonctionnement général du système de questions-réponses, avant de détailler la méthode d’extraction des réponses. Le corpus de document est indexé par le moteur de recherche Lucene [Apache 07]. La sélection des documents est effectué en créant une requête composée des mots clefs de la question. Les 0 premiers documents sont alors analysés syntaxiquement par XIP [Aït-Mokhtar, et al. 02]. XIP fournit les dépendances syntaxiques des phrases des documents. Les entités nommées sont elles aussi annotées par XIP. Le même traitement est effectué sur la question. FIDJI va ensuite sélectionner les phrases contenant le plus de dépendances syntaxiques de la question traitée. Enfin, la réponse est extraite à partir des dépendances syntaxiques de la phrase, du type de la question et du type attendu de la réponse. L’exemple ci-dessous explique comment se déroule l’extraction de la réponse. Pour la question, Quel premier ministre s’est suicidé en 93 ?, 5 dépendances syntaxiques ont été identifiées par XIP : – DATE(93) – PERSONNE(réponse), – SUJET(se suicider, réponse), – attribut(réponse, ministre), – attribut(ministre, premier). La question est de type factuelle, et le type de la réponse attendue est personne, avec comme type spécifique premier ministre. Dans cet exemple, la phrase avec le plus de dépendances syntaxiques est la suivante : Pierre Bérégovoy s’est suicidé en 93., avec comme dépendances DATE(93),(Pierre Bérégovoy), et SUJET(se suicider, Pierre Bérégovoy). Pierre Bérégovoy instancie l’élément réponse de la question, et le système identifie alors les dépendances de la question validées. Dans ce cas, les trois premières dépendances sont validées. Le système va alors chercher les dépendances manquantes dans une phrase de la collection de document (par exemple le premier ministre Pierre Bérégovoy). Le système a obtenu de bons résultats sur l’évaluation 09 Quaero pour les questions factuelles en se classant second, avec un MRR de 0.37 et une précision de 33.0%, le meilleur résultat étant de 0.54 et 50.2%. On peut aussi noter que les résultats obtenus sur les questions pourquoi et comment sont bons : le MRR obtenu est respectivement de 0.32 et 0.49, le second meilleur système obtenant 0. et 0.. Ces résultats montrent qu’une approche utilisant des dépendances syntaxiques est applicable sur des documents autres que des sources journalistiques. Il est donc possible d’utiliser des dépendances syntaxiques pour un module de réordonnancement. Par contre, l’analyseur XIP [Aït-Mokhtar et al. 02] n’est pas adapté pour traiter des documents de l’oral. Ainsi, si les dépendances syntaxiques semblent pertinentes pour le réordonnancement, il semble nécessaire d’avoir une approche adaptée à l’oral.

Utilisation de dépendances syntaxiques et de méthode par apprentissage pour des transcriptions orales : le système de l’UPC

 Le système de l’UPC [Comas et al. ](Université Polytechnique de Catalogne) a été conçu pour travailler sur des transcriptions orales, et a par ailleurs participé aux différentes campagnes de l’évaluation QAst [Turmo et al. 08 ; Turmo et al. 09]. Etant donné les caractéristiques de l’oral, les auteurs ont choisi de s’appuyer sur un analyseur syntaxique et sémantique développé au sein de l’UPC [Lluis, et al. 09]. Seules les relations syntaxiques fournies par cet analyseur sont utilisées. En effet, l’analyseur n’est pas totalement adapté à l’oral. Les auteurs ont ainsi fait le choix d’extraire les caractéristiques robustes : l’information sémantique délivrée par l’analyseur n’est pas utilisée, et seules certaines informations syntaxiques sont reprises (principalement les dépendances syntaxiques). Ce système traite deux langues, l’espagnol et l’anglais. L’intérêt du système de l’UPC par rapport à notre travail est multiple. Deux différentes méthodes de réordonnancement sont comparées sur un ensemble de questions de la campagne QAst 09. L’une des deux méthodes s’appuie sur les dépendances syntaxiques fournies par l’analyseur de l’UPC. Par ailleurs, ces méthodes sont évaluées dans le cadre de l’oral, ce qui permet d’observer leur robustesse par rapport à des documents transcrits de l’oral. Le système de l’UPC utilise une architecture classique pour un système de questions-réponses. Le type de la question est d’abord détecté à partir d’un classifieur Perceptron utilisant des traits lexicaux, sémantiques et syntaxiques. A partir du type de la question, le système interroge à l’aide d’un moteur de recherche la base de documents et récupère un ensemble de passages candidats. L’extraction des réponses s’appuie sur un ensemble d’heuristiques évaluant les passages hypothèses selon les caractéristiques suivantes : les chaînes de mots équivalentes, les ponctuations, le nombre de mots de la question suivant le candidat réponse, les mots de la question trouvés dans la même phrase que le candidat réponse et dans son contexte, la distance la plus élevée en mots entre deux mots de la question, et enfin la distance entre le focus de la question et la réponse candidate. Ces heuristiques sont transformées en un score dont chaque composante a un poids assigné à partir d’un paramétrage manuel effectué en fonction de la collection de documents. A partir de cette architecture, les auteurs ont ajouté un module de réordonnancement prenant en entrée les candidats réponses. Ce module s’appuie sur un classifieur dont l’objectif est de déterminer si un candidat réponse répond ou non à la question. Le classifieur utilise un modèle généré par SVM à partir d’un corpus de développement pour déterminer si une réponse candidate est positive ou négative. Les valeurs retournées par les heuristiques sont converties en caractéristiques binaires qui sont ensuite utilisées comme traits par le classifieur. En plus des valeurs des heuristiques, les auteurs fournissent aussi au classifieur les valeurs (elles aussi binarisées) suivantes : le score total obtenu lors de l’extraction des réponses, le rang de la réponse candidate, la redondance de cette réponse, le type de l’entité nommée, et enfin le nombre de mots-clefs dans la question. La dernière approche réutilise le même classifieur en ajoutant de nouveaux traits. Ces traits sont définis en s’appuyant sur les dépendances syntaxiques produites par l’analyseur utilisé par l’UPC. L’idée est de prendre les chemins de dépendances entre chaque mot-clef de la question et le marqueur interrogatif, et de les comparer avec ceux existant dans le passage candidat, cette fois entre les mots-clefs présents et la réponse candidate. Ces chemins sont au préalable simplifiés en enlevant certaines dépendances fréquentes : modifieurs de nom, prépositions, adverbes … Par ailleurs, les verbes contingents sont réunis. En comparant ces chemins l’idée est d’identifier les mots-clefs proches d’une réponse candidate mais qui ne sont pas en relation, et au contraire valider les mots-clefs éloignés mais reliés syntaxiquement. A partir de cette hypothèse, les auteurs introduisent les traits suivants : le nombre de mots-clefs en relation avec la réponse et le ratio par rapport au nombre total, les distances en nombre de relations entre les mots-clefs et la réponse candidate, la longueur du plus long chemin équivalent entre la question et le passage candidat pour chaque mots-clefs, le ratio par rapport à la taille du chemin de la question, le maximum, le minimum et la moyenne, le nombre de dépendances à insérer pour obtenir des chemins équivalents pour chaque mots-clefs ainsi que la somme pour chaque type, et enfin la somme des dépendances dans le plus long chemin équivalent de chaque mots-clefs. Là aussi, les valeurs sont binarisées. L’exemple 3.2 illustre le fonctionnement de cette approche. La question “Where was Tenzin Delek arrested ?” est annoté avec des dépendances syntaxiques, ainsi que le passage “The case of Tenzin Delek Rinpoche was raised with me by several of my constituents in Scotland”. Scotland est une des réponses candidates proposées par les heuristiques. Le label ROOT correspond au verbe principal de la phrase et de la question, qui est ensuite transformé en VC (VC correspond à Verbal Chunk, un groupe verbal). Le chemin entre le candidat réponse et l’élément de la question Tenzin Delek est simplifié en enlevant certains labels fréquents, comme les modifieurs de nom par exemple. En comparant le chemin simplifié de la question avec celui du passage, on peut voir que ce dernier contient une relation LGS supplémentaire. Cette dépendance représente le sujet logique d’un verbe à la forme passive. Cela signifie que Scotland modifie une phrase nominale qui a une relation syntaxique   avec le verbe principal qui n’est pas un modifieur de lieu. De ce fait, Scotland n’est pas forcément un lieu associé à Tenzin Delek.

Table des matières

Introduction
I Contexte du travail
Introduction
1 Les systèmes de Questions-Réponses 25
1.1 Présentation générale des systèmes de questions-réponses . . 25
1.2 CHAUCER, un système linguistique 28
1.3 Un système fortement statistique : le système des ATR Spoken Language Communication Research Laboratories 29
1.4 QALC, un système intermédiaire de LIMSI-ILES . 31
1.5 Discussion 33
2 Ritel : un système de questions-réponses oral en domaine ouvert 37
2.1 Normalisation . . 38
2.2 Analyse des documents et des questions . 38
2.3 Système de questions-réponses 39
2.3.1 Définition Descripteurs De Recherche (DDR) 40
2.3.2 Recherche des réponses candidates . 41
2.3.2.1 Sélection des documents 41
2.3.2.2 Sélection des passages . 42
2.3.2.3 Sélection et extraction des réponses 44
2.3.3 Résultats obtenus 46
2.3.4 Analyse des résultats 47
2.4 Hypothèses 49
5
6 TABLE DES MATIÈRES
Discussion 51
II Contributions 53
Introduction 55
3 Approches pour le réordonnancement de réponses 57
3.1 Etude de différentes méthodes applicables pour le réordonnancement 58
3.1.1 Utilisation de dépendances syntaxiques dans le cadre du web : le système FIDJI 59
3.1.2 Utilisation de dépendances syntaxiques et de méthode par apprentissage pour
des transcriptions orales : le système de l’UPC
3.1.3 Utilisation de rôles sémantiques pour l’extraction des réponse : QASR
3.1.4 Noyaux syntaxiques et sémantiques pour l’extraction de réponses dans le
cadre du système YourQA
3.1.5 Implication textuelle par distance d’édition : le système EDITS
3.1.6 Conclusions préliminaires
3.2 Modèles de représentation des questions et des documents
3.2.1 Segmentation et annotation de groupes de mots
3.2.2 Relations entre groupes de mots
3.2.2.1 XIP, un analyseur de dépendances syntaxiques
3.2.2.2 Assert, un annotateur de rôles sémantiques
3.2.2.3 L’analyseur de dépendances syntaxiques de l’UPC
3.2.2.4 Les Syntagmes Non Récursifs
3.3 Discussion
4 Un modèle de représentation robuste des documents et questions
4.1 Présentation
4.2 Segmentation en constituants typés
4.2.1 Définition des segments
4.2.1.1 Formalisme EASY
4.2.1.2 Formalisme adopté
4.2.2 Annotation et typage des segments
4.2.3 Corpus d’apprentissage et de test
4.2.4 Résultats obtenus
4.2.5 Conclusions sur la segmentation
4.3 Relations typées entre segments
4.3.1 Définition des relations
4.3.2 Règles d’ajout des relations
4.4 Conclusions sur le modèle de représentation
5 Une méthode de réordonnancement des candidats réponses
5.1 Introduction
5.2 Architecture du réordonnanceur
5.2.1 Traitements de structuration multi-niveaux
5.2.2 Calcul du coût de transformation
5.3 Ressources linguistiques
5.4 Traitements de structuration multi-niveaux
5.4.1 Description générale
5.4.2 Fonctionnement algorithmique des traitements préliminaires
5.4.2.1 Conventions de notation des questions et des passages
5.4.2.2 Segmentation typée
5.4.2.3 Détection des similarités
5.4.2.4 Ancrages des segments
5.4.2.5 Réduction du passage
5.4.2.6 Identification des relations entre segments
5.4.3 Conclusion sur les traitements de structuration multi-niveaux
5.5 Calcul du coût de transformation
5.5.1 Description générale
5.5.2 Définition des opérations de transformation
5.5.2.1 Opérations de substitution
5.5.2.2 Opérations de rattachement
5.5.2.3 Opérations de suppression et d’insertion
5.5.3 Génération des opérations de transformation
5.5.3.1 Opérations de substitution
5.5.3.2 Opérations de suppression
5.5.3.3 Opérations d’insertion
5.5.3.4 Opérations de rattachement
5.5.4 Algorithme de recherche de la suite d’opérations de transformation la moins
coûteuse . 6
5.5.4.1 Description de l’algorithme
5.5.4.2 Poids du segment
5.5.4.3 Opérations de substitution
5.5.4.4 Opérations de rattachement
5.5.4.5 Opérations de suppression
5.5.4.6 Opérations d’insertion
5.5.4.7 Coût total
5.5.5 Paramétrage du système
5.5.6 Conclusions sur le module de calcul du coût de transformation
Discussion
III Evaluation et analyse
Introduction
6 Présentation des campagnes d’évaluation
6.1 Présentation générale
6.2 Définition des questions
6.2.1 Types des questions
6.2.2 Création des questions
6.3 Type des documents
6.4 Métriques utilisées
7 Evaluation
7.1 Présentation
7.2 Evaluation du segmenteur
7.3 Evaluation du réordonnanceur
7.3.1 La campagne d’évaluation QA@CLEF
7.3.2 La campagne d’évaluation QAst
7.3.3 La campagne d’évaluation Quaero
7.4 Discussion sur les résultats
8 Analyse critique des résultats
8.1 Présentation générale
8.2 Analyse modulaire
8.2.1 Impact du segmenteur
8.2.2 Impact des relations et des opérations de rattachement
8.2.3 Impact des synonymes
8.3 Analyse selon les caractéristiques des questions
8.3.1 Classes des questions
8.3.2 Nombre d’éléments de la question
8.4 Impact des caractéristiques des campagnes sur les systèmes de questions-réponses
8.4.1 Présentation
8.4.2 Distance moyenne entre les éléments de la question et la réponse
8.4.3 Evaluation de la mesure
8.4.4 Impact de la mesure sur les systèmes de questions-réponses Discussion
IV Conclusions et perspectives
9 Conclusions
Perspectives
Publications
Bibliographie

projet fin d'etude

Télécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *