Adaptation d’un système de RCEN

Adaptation d’un système de RCEN

Pour première expérience d’acquisition automatique de relations sémantiques, nous avons cherché à savoir si le système EnCor permettait d’extraire des patrons sémantiquement discriminants. À travers ce système d’extraction, nous cherchons à évaluer la dualité entre la catégorie sémantique d’une expression linguistique et les relations auxquelles elle est associée. Par exemple, un patron tel que naît en 1982 aura fort probablement un sujet de type Personne. Nous ne disposons pas d’analyseur en dépendance mais d’un système d’extraction de patrons qui caractérise les EN en fonction des patrons sémantiques qui leur sont associés au sein d’un segment. Les segments retenus seront donc des segments simples (de taille 1) et seront exclus de l’évaluation. L’évaluation du système porte sur la problématique de l’adaptation : le classifieur doit corriger les erreurs du système Rnc. Quatre paramètres peuvent justifier la nécessité d’une adaptation :Il serait raisonnable de considérer que le système Rnc est suffisamment robuste pour gérer ces paramètres de variation. Nous chercherons donc plus spécifiquement à évaluer la capacité du système Encor à l’adapter à de nouvelles conventions de définition d’EN. Comme décrit précédemment (chapitre 5), ces conventions ont évolué et sont encore discutées. Conformément à ce que nous avions proposé, nous établirons des conventions en fonction du contexte d’application, qui concerne l’extraction d’information pour un système de Question-Réponse, en l’occurence Ritel (11.1). Nous décrivons les résultats de l’évaluation en (11.2) et les patrons extraits par le système EnCor en (11.3).

L’annotation a été réalisée par une interface d’annotation web : en sélectionnant une EN dans le texte (figure 11.1), l’annotateur pouvait choisir une classe, grâce à un bouton (en vert), ou corriger une annotation précédente (en rouge) ; chaque EN était alors surlignée par une couleur distinctive.Le corpus de presse est divisé en corpus de développement, à partir duquel nous avons extrait les patrons (17 millions de mots) et en corpus de test (5,5 millions de mots, 10 000 articles). 200 articles de presse ont été annotés pour obtenir plus de mille instances d’entités de chaque classe (plus exactement 1426 organisations, 1004 lieux et 1377 personnes).Du point de vue de la forme, les conventions ont réduit la tâche de détection des EN au nom propre, avec ou sans majuscule, en utilisant notamment les titres, fonctions et déterminants pour délimiter les bornes de l’EN : ces bornes sont systématiquement exclues. Les expressions référentielles (comme le président) ont donc également été exclues. Néanmoins, lorsque certains éléments pouvaient être considérés comme constitutifs de la dénomination d’une EN, ils ont été inclus, ce qui distingue l’exemple (242) de l’exemple (243).Dans ces exemples, c’est la dénomination globale qui l’emporte : l’université de Poitiers est une dénomination, le maire de Poitiers est la composition d’une fonction et d’un lieu. Poitiers en (243) pourrait être considéré comme une organisation, ou une entité geo-politique. Il est considéré comme un lieu, parce qu’il est la réponse à la question exprimée en (244).

Cette convention traduit directement notre préoccupation à inscrire le système de RCEN dans le cadre d’un SQR. Plus particulièrement, les EN sont considérées selon le rôle qu’elles jouent en contexte dans le cadre d’un scénario d’extraction d’information exprimé par une question. En (242), le contexte n’est pas suffisant pour déterminer à quelle question l’occurrence de l’EN est susceptible de répondre. La difficulté majeure consiste donc à identifier des critères fiables pour résoudre les cas où le type d’une EN diffère de son rôle en contexte. Les conventions d’annotation privilégient dans ces cas l’interprétation contextuelle. Deux types de divergences ont été rencontrées :En (245), l’EN Perben a été exclue de l’annotation car elle relève du type Loi, bien qu’elle soit nommée d’après son fondateur. Cela signifie que ce contexte n’est pas jugé pertinent pour répondre à une question sur l’origine du nom de cette loi, mais plutôt sur des relations telles que la date (247) ou le sujet (248).au verbe avec lequel l’EN est employée. Cet exemple ne désigne pas une personne comme les conventions d’annotation de métonymie de la campagne Semeval7 [Markert & Nissim, 2007] semblent l’indiquer à travers la catégorie « Loc-for-People » (il n’existe pas de catégorie « Loc-for- Org ») : il s’agit d’une organisation politique, dans ce cas très probablement le gouvernement. La question a laquelle peut répondre cette occurrence est illustrée en (249).Remarquons qu’on trouvera difficilement *à qui s’est imposé Auxerre ?, et que dans l’exemple (252), nous avons substitué le verbe par vaincre. Par conséquent, c’est parce que nous raisonnons sur le plan sémantique que nous nous permettons cette substitution. D’un point de vue linguistique, la question « correcte » contenant le verbe s’imposer sera une variante de Où Auxerre s’est imposée mercredi ? ; dans ce cas la catégorie Lieu convient. Évidemment, il serait plus intéressant qu’un système puisse inférer l’équivalence sémantique entre s’imposer et des verbes comme vaincre, battre, gagner, etc. Les SQR comme RITEL proposent dans ce genre de cas d’utiliser des dictionnaires de synonymes pour l’expansion de requêtes, mais ces expansions sont effectuées à partir de dictionnaires de synonymes et sur la base d’une équivalence mot-mot.

Or, nous avons montré dans les chapitres précédents que le sens était mieux appréhendé en contexte et en prenant en compte l’environnement linguistique du mot-cible. L’équivalence mot-mot est un pis-aller d’autant qu’il n’existe pas de ressource sémantique comme FrameNet pour le français, qui nous permette d’associer deux structures prédicatives équivalentes. Nous considérons donc que nous atteignons ici la limite de ce qu’une extraction sémantique du contexte peut apporter : la réponse à une telle question, étant donné ce contexte, devra être résolue par d’autres moyens. Du point de vue du système RITEL, cela signifie que le DDR (descripteur de recherche ; cf. infra 6.1.1) doit disposer, d’une manière ou d’une autre, de ces équivalences. Mais comme ce DDR intervient dans toutes les phases majeures qui suivent l’analyse de la question, l’intégration optimale de telles connaissances nécessite d’être étudiée en détail.Pour ce qui nous concerne ici, les lieux ont donc été annotés comme tels lorsque l’interprétation en contexte le justifiait (notions de localisation, destination, origine, etc.) L’EN Florence, pourra désigner une personne (253) ou un lieu (254) selon le contexte.

 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *