Acquisition de cadre d'EI

Acquisition de cadre d’EI

Notre recherche sur les EN s’est effectuée dans le cadre d’un projet de SQR, le système RITEL, qui fait usage d’un analyseur linguistique Ritel-nca, incorporant la tâche d’EN. Nous présenterons tout d’abord le projet et le système symbolique à l’œuvre. Dans un second temps, nous présenterons l’approche collocationnelle développée pour l’extraction de cadres d’EI (Extraction d’Information), permettant à la fois la désambiguïsation et l’extraction de relations. Nous présenterons ensuite une amélioration du système qui repose sur l’ajout d’une couche analyse syntaxique en constituants, avant de terminer sur un cas particulier, l’extraction de citations.RITEL [Rosset et al., 2005] est un SQR interactif à domaine ouvert dont l’objectif est de permettre à un utilisateur de dialoguer avec un système de recherche d’information généraliste. Développé au LIMSI, il bénéficie de l’expérience acquise dans le développement des systèmes qui l’ont précédé (Arise, RailTel, Mask37). Historiquement, les applications ont progressivement évolué, de l’information sur le domaine aéronautique [Bennacef et al., 1994], la réservation de billets de trains [Lamel et al., 2000] à des questions à domaine ouvert. Les sources ont également évolué, des bases de données structurées, à des textes non structurés d’information générale.L’analyse linguistique Ritel-nca (Rnc), ou analyse non-contextuelle (parce qu’elle ne tient pas compte du contexte de dialogue pour prendre des décisions), permet d’annoter les transcriptions issues de la reconnaissance vocale. Comme on peut l’observer sur le schéma, c’est ce même module qui analyse les documents dans lesquels s’effectue la RI. Cela signifie que ce module prend à la fois en charge l’écrit et l’oral (les corpus peuvent être constitués d’articles de presse comme de transcriptions radiophoniques). C’est un choix stratégique délibéré : il permet d’utiliser la même représentation linguistique dans les questions et dans les réponses, autant à l’oral qu’à l’écrit.

Ritel-nca est un système symbolique à base de règles qui repose sur un moteur d’expressions régulières dédié, Wmatch [Galibert, 2009]. Il utilise un grand nombre de lexiques pour définir des catégories (appelées entités-R38, au nombre de 300) de nature variable (inspiré en partie de la taxonomie de Sekine, [Sekine & Nobata, 2004] ; tableau 6.1) à partir de règles.Les règles définissent des grammaires régulières dédiées à la détection d’un type d’entité-R, elles sont donc relativement proches des grammaires sémantiques ([Burton, 1977] ; [Gavaldà, 2000]) : les règles s’appliquent à des catégories sémantiques. De nombreuses passes sont effectuées pour appliquer ces règles et des profils peuvent être définis pour choisir et ordonnancer leur application. Les entités-R peuvent ainsi être hiérarchisées, imbriquées et corrigées par des règles de plus haut niveau et les textes sont annotés par des structures arborescentes (exemple 193, illustré en figure 6.2). La f-mesure associée à la classification d’entités nommées (Organisation, Personne, Lieu) est de 0,8 sur l’écrit et à hauteur de l’état de l’art pour les corpus oraux [Rosset et al., 2005 : 167].Le type de réponse attendu est bien une date, l’élément devant absolument figurer dans le contexte est le Npr de type Personne Hans Krasa ainsi que le verbe (ou action) assassiner (en y ajoutant ses variantes sémantiques et morpho-syntaxiques). L’intérêt de ce DDR est d’être à la fois lisible pour le concepteur et structuré pour lancer automatiquement une requête. La requête ainsi définie est suivie des trois étapes classiques de recherche d’information dans un SQR : la sélection des documents, la sélection de passages et l’extraction de la réponse. Pour plus de précision sur l’originalité de ce système, nous renvoyons le lecteur à la thèse de Galibert [ibid. : 101–114].

Le système RITEL est complexe mais des efforts ont été entrepris pour retracer les erreurs et faciliter leur correction (grâce notamment au DDR et au format de représentation unique fourni par l’analyseur linguistique). Comme on a pu le voir, l’analyseur linguistique joue un rôle important : c’est en partie sur lui que reposent la détection de thème, la définition du DDR, l’indexation et l’extraction de la réponse. Les évaluations détaillées de RITEL ont montré que le type de la réponse était source de nombreuses erreurs [Galibert, 2009 : 152]39. D’après O. Galibert, l’amélioration principale repose sur l’addition d’informations linguistiques40, pouvant être exploitées par le SQR :« Mais la principale faiblesse est la limite sur ce que l’analyse peut représenter. Comme nous l’avons vu dans la première partie la représentation ne permet pas d’annoter les relations à longue distance. Or nous pensons que des relations sémantiques de qualité liant les éléments trouvés par l’analyse permettraient d’obtenir une bien meilleure qualité au niveau du score de réponse. Cependant, représentation mise à part, poser de telles relations de façon fiable semble très difficile sans de grandes ressources linguistiques. Concevoir un moteur de règles capable de travailler sur de telles relations, écrire des règles pour les établir d’une manière fiable et les exploiter ensuite dans un système Question-Réponse restent des problèmes ouverts. » [Galibert, 2009 : 164].