SEMPEDIA : Sémantisation à partir des documents semi-structurés

SEMPEDIA : Sémantisation à partir des documents
semi-structurés

Focalisation sur l’extraction de relations

Dans le cadre du projet SemPedia, la thèse d’Adel Ghamnia contribue à la problématique de l’extraction de relations sémantiques à partir du texte des pages WikiPedia. Plus particulièrement, nous nous focalisons sur les relations binaires, celles reliant deux termes en corpus, et qui seront ensuite représentées par un triplet reliant deux entités ou deux classes ou une entité et une classe ou encore une classe et une valeur. Formellement, une relation binaire est un triplet r = (e1, e2) où r est le prédicat (que nous appellerons désormais nom ou type de la relation), et ei des termes (en général des syntagmes nominaux) désignant les éléments en relation. Par exemple, la phrase (exemple 1.2) permet d’identifier plusieurs relations binaires comme est-un(blues, genre musical). est-un(blues, genre vocal), est-un(blues, genre instrumental), est-dérivé(blues, chants de travail des populations afro-américaines), pays-origine(blues, États-Unis), … D’emblée, cette phrase montre la difficulté de la tâche d’extraction de relations, tant pour les repérer dans les textes (par exemple, les mots « genre » et « vocal » ne sont pas contigus dans la phrase) que pour les représenter (il faut faire une sorte de déduction et un choix pour décider de représenter les États-Unis comme « pays-d’origine » du blues alors que la phrase dit que ce sont les populations qui l’ont créé qui étaient aux États-Unis ; la relation pourrait s’appeler « a-pour-origine » ou encore « origine »). (exemple 1.2) Le blues est un genre musical, vocal et instrumental dérivé des chants de travail des populations afro-américaines subissant la ségrégation raciale aux États-Unis. est-un(blues, genre musical). est-un(blues, genre vocal), est-un(blues, genre instrumental), est-dérivé(blues, chants de travail des populations afro-américaines) , pays-origine(blues, États-Unis), … Pratiquement, l’extraction de relations a fait l’objet de recherches au sein de plusieurs communautés scientifiques : en traitement automatique des langues (TAL) comme sous-tâche de l’extraction d’information, en terminologie et en ingénierie des connaissances (IC), lorsque des textes sont utilisés comme une des sources pour construire des terminologies formelles et des bases de connaissances

Extraction de relations et extraction d’information

En TAL, elle est considérée comme une sous-tâche du processus d’extraction d’information (EI) qui cherche à découvrir un nombre fini et réduit de relations entre les mentions linguistiques de deux (ou plus) entités de types prédéfinis (et toujours en nombre limité, à partir de textes en langage naturel [Culotta et al., 2006]. Les premiers travaux de ce type remontent aux années 1990 et ont porté sur l’analyse de dépêches financières Grishman [1997]. On s’intéresse par exemple à des relations de localisation entre des personnes et des lieux, des personnes et des dates (de naissance ou de mort) ; des événements et des dates et/ou des lieux, entre des personnes et des entreprises, etc. Ces informations sont ensuite stockées dans des bases de données, dont chaque table est associée à un type de relation, les types de données correspondant aux classes recherchées et chaque ligne étant une instance de relation. Au sujet des travaux pionniers menés sur le français, le livre de Thierry Poibeau présente une synthèse remarquable [Poibeau, 2003]. Le domaine évolue pour prendre en compte des problèmes plus complexes car il bénéficie désormais des algorithmes d’apprentissage automatique. Afin de dégager le plus grand nombre de triplets des textes, l’extraction d’information « ouverte » ne fait aucun a priori sur les classes recherchées ou sur les relations possibles entre ces classes [Etzioni et al., 2008]. L’extraction d’information est un domaine de recherche en pleine effervescence, d’une part à cause des avancées très prometteuses permises par la représentation des mots sous forme de vecteurs de plongement en corpus (word embeddings) et d’autre part grâce aux algorithmes d’apprentissage automatique, en particulier à base de réseaux de neurones. Parmi les états de l’art offrant une vue synthétique des avancées du domaine, citons celui de Bach and Badaskar [2007], suivi par l’article de Sharma et al. [2016] sur l’extraction de relations binaires dans le domaine médical. Plus récemment, Pawar et al. [2017] a fait un panorama des méthodes d’apprentissage supervisé et semi-supervisé alors que Smirnova and Cudré-Mauroux [2018], Niklaus et al. [2018] et Kumar [2017] utilisent respectivement la supervision distante pour faire de l’extraction d’information ouverte et l’apprentissage profond pour l’extraction de relations. Enfin, un bon état de l’art sur l’extraction d’information en général et l’extraction de relations en particulier dans le cadre du web a été rédigé par Martinez-Rodriguez et al. [2018].

Extraction de relations en Terminologie et en Ingénierie des connaissances

En Terminologie, l’organisation des terminologies dans des bases de données puis dans des bases de connaissances a d’abord donné lieu à des travaux sur leur représentation et sur les schémas de données associés, mais très vite aussi sur la manière de les construire plus ou moins automatiquement à partir de textes. Les travaux d’Ingrid Meyer dans les années 1990 sont pionniers en la matière [Skuce and Meyer, 1990] [Meyer et al., 1992] avec la notion de bases de connaissances terminologique. Faisant l’hypothèse que les corpus contribuent à « révéler » les termes et leur signification dans un domaine particulier, I. Meyer a proposé de s’appuyer sur les textes pour identifier des termes en usage et de tenir compte de leurs contextes pour rendre compte de leur sens et de leurs relations. L’extraction de termes et l’extraction de relations sont alors devenues deux tâches clés du processus de construction de terminologie, alors qu’il était jusque là plutôt manuel et lié à l’expertise de spécialistes du domaine. Les premiers logiciels réalisant ces extractions s’appuient sur des patrons lexico-syntaxiques, en particulier ceux de M. Hearts pour la construction de la taxonomie des termes [Barrière, 2004], que l’on retrouve opérationnels dans le logiciel TerminoWeb [Barrière and A., 2006]. Un état de l’art sur l’extraction de relations en terminologie est paru en 2008 [Auger and Barrière, 2008]. En IC, l’extraction de relations à partir de textes s’intéresse avant tout aux relations binaires car les langages de représentation des connaissances Extraire des relations sémantiques de textes est un moyen de collecter des connaissances et de construire ces modèles, qui intervient dans deux tâches liées au processus de construction de modèles de connaissances à partir de textes [Buitelaar et al., 2005] [Buitelaar and Cimiano, 2008] [Lehmann and Volker, 2014] : — La construction d’ontologie ou de schéma de modèle. Il s’agit ici d’identifier les relations potentielles entre classes, qui peuvent être des relations hiérarchiques (des relations de spécialisation entre classes, de partie-tout entre classes) ou non (relations de causalité, d’origine, datation, localisation, etc.). En général, les classes sont extraites en étudiant les termes spécifiques au domaine utilisés en corpus, et les types de relations sont découverts au fur et à mesure de l’extraction des relations elles-mêmes, ce qui conduit à un processus itératif. Une attention particulière est portée à la relation d’hyperonymie. Lorsqu’elle relie deux classes, elle est représentée à l’aide de la relation rdfs:subClassOf entre classes. Cette relation organise les concepts en une taxonomie qui sert d’ossature à toute ontologie. L’apprentissage de cette taxonomie à partir de texte fait l’objet de recherches spécifiques sous le nom de « Taxonomy learning » [Wang et al., 2017]. — la construction de bases de connaissances ou peuplement d’ontologies. Dans ce cas, on peut faire l’hypothèse que les classes à renseigner sont connues (et le problème se rapproche alors de celui de l’extraction d’information) ; ou pas connues (on cherche alors de manière « ouverte » toutes les relations possibles entre entités (et dans ce cas, on se rapproche de travaux récents en open information extraction). Parmi les travaux pionniers, citons deux systèmes basés sur l’utilisation de patrons lexicosyntaxiques, Prométhée d’ E. Morin [Morin and Jacquemin, 2004], qui permet d’apprendre de nouveaux patrons spécifiques à un corpus et Caméléon de P. Séguéla [Séguéla and AussenacGilles, 1999], qui accompagne le processus de la mise au point (manuelle) de patrons spécifiques à l’enrichissement d’un modèle conceptuel en passant par l’adaptation et la validation des patrons 5 1 Introduction aux corpus et aux connaissances à décrire [Séguéla, 2001]. Cette approche a été reprise et complétée dans une deuxième version de Caméléon [Jacques and Aussenac-Gilles, 2006] avec des patrons appliqués aux résultats d’un corpus étiqueté syntaxiquement. Cette problématique fait aujourd’hui l’objet de nombreuses recherches et d’avancées régulières dans l’état de l’art. Parmi les résultats marquants des années 2000 à 2010, citons Text2Onto 2 [Cimiano and Völker, 2005] intégré dans la plate-forme NEON de construction d’ontologies et de bases de connaissances, et l’utilisation de la plate-forme GAte 3 [Cunningham et al., 2002] [Cunningham and Bontcheva, 2013] pour définir des chaînes d’extraction de relations et d’entités. En effet, que ce soit pour la construction d’ontologies ou pour l’enrichissement de bases de connaissances, les relations sémantiques jouent un rôle fondamental pour organiser les concepts d’un domaine et pour former un graphe de connaissances par la mise en relation des concepts et entités. Les travaux récents s’appuient sur l’apprentissage automatique et les réseaux de neurones, et l’on assiste à une multiplication des résultats et des approches pour la partie extraction proprement dite, alors que moins de recherches portent sur la génération et l’organisation en graphe de triplets RDF. Nous mentionnerons les travaux les plus avancés dans l’état de l’art du chapitre 2. Ce qu’il ressort des premiers états de l’art [Bach and Badaskar, 2007], c’est que les techniques d’apprentissage les plus performantes sont des techniques supervisées, qui requièrent de disposer d’exemples positifs et négatifs. Ces exemples doivent être annotés comme comportant une relation, et laquelle, ou aucune relation, permettant ainsi de produire une classification en 2 ou n classes suivant le nombre de relations recherchées. Or l’annotation de fragments de texte est un travail long et fastidieux, conduisant parfois à des désaccords entre experts. Pour éviter cette phase, des alternatives consistent à (i) produire des exemples automatiquement à partir de patrons, c’est la supervision partielle comme dans l’approche Snorkel 4 [Ré, 2018] [Hancock et al., 2018] ou (ii) à exploiter des ressources pour annoter (bases de connaissances contenant déjà des relations validées), c’est la supervision distante. Elle a été appliquée à l’extraction de relations dès 2005 environ [Mintz et al., 2009] [Min et al., 2013]. Cette idée est mise en oeuvre dans les travaux les plus avancés qui utilisent aussi des plongements vectoriels de mots (word embeddings) et des réseaux de neurones. Une des ressources utilisées est par exemple FreeBase dans [Xu and Barbosa, 2019]. On trouvera un panorama des systèmes et approches les plus récents sur les deux sites suivants : — « https ://github.com/roomylee/awesome-relation-extraction » — « https ://nlpprogress.com/english/relationship-extraction.html » Bien sûr, ces travaux ont été testés essentiellement sur des jeux de données (textes et triplets en relation) en anglais et nécessitent d’importants volumes de textes pour entraîner les modèles

Table des matières

1 Introduction
1.1 Le projet SemPedia
1.1.1 DBpédia en français
1.1.2 Objectifs de SemPédia
1.2 Focalisation sur l’extraction de relations
1.2.1 Extraction de relations et extraction d’information
1.2.2 Extraction de relations en Terminologie et en Ingénierie des connaissances
1.3 Objectifs de la thèse
1.4 Organisation du document
2 Etat de l’art 9
2.1 Contexte : Ontologies et Bases de connaissances
2.1.1 Ontologies et Formalismes
2.1.2 Quelques bases de connaissances
2.1.3 Construction d’ontologies à partir de textes
2.2 Extraction de relations à partir de textes
2.2.1 La relation d’hyperonymie
2.2.2 Approche linguistique
2.2.3 Approche statistique
2.3 Discussion
3 Une approche par patrons pour Wikipedia
3.1 Introduction
3.2 Problématique
3.3 Les ressources de patrons CAMELEON et MAR-REL
3.3.1 La base CAMELEON
3.3.2 la base MAR-REL
3.3.3 Comparatif de différentes ressources de patrons
3.4 Bilan de la première expérimentation
4 Approche statistique pour l’extraction de relations
4.1 Problématique
4.2 Extraction par supervision distante
4.3 Choix des traits et repérage des termes
4.3.1 Choix des propriétés caractérisant les exemples
4.3.2 Choix des traits
4.3.3 Identification des termes
4.3.4 Illustration
4.4 Mise en œuvre et résultats
4.4.1 Application aux pages de désambiguïsation
4.4.2 Application à l’ensemble du corpus Wikipedia
4.4.3 Bilan de l’expérimentation
4.5 Conclusion
5 Combinaison de méthodes pour l’extraction de relations d’hyperonymie
5.1 Introduction
5.2 Présentation de la méthode
5.3 Résultats et Évaluation
5.3.1 Évaluation quantitative
5.3.2 Evaluation qualitative
5.4 Les articles tirés de cette étude
6 Enrichissement de traits pour l’extraction de relations d’hyperonymie
6.1 Extraire des relations à partir de structures énumératives : motivations
6.2 Enrichir une base de connaissances : difficultés soulevées
6.3 Synthèse de l’approche et des résultats
6.4 Article tiré de cette étude
7 Conclusion
7.1 Synthèse des contributions
7.2 Perspectives
Bibliographie