Ontologie des noms propres

Ontologie des noms propres

Ontologie 

La notion d’ontologie est apparue la première fois il y a environ 2 300 ans sous la Grèce antique en philosophie avec Aristote et même avec Platon. Les ontologies sont, depuis 1990, au cœur de nombreux travaux dans le domaine de l’organisation des connaissances. En Intelligence Artificielle, en Ingénierie des Connaissances, dans le Web Sémantique, dans le Traitement Automatique des Langues, etc., les approches ontologiques connaissent beaucoup de succès et apportent des solutions novatrices. Cela s’explique par le besoin et la recherche d’une modélisation du monde et du sens des mots qui soit accessible aussi bien par des humains que par des agents logiciels.

 Définition d’une ontologie 

Il n’est pas évident de définir précisément ce qu’est une ontologie. Il existe bien sûr de nombreuses définitions de la notion d’ontologie, mais nous allons présenter seulement quelques définitions que nous avons trouvées dans le domaine de la recherche en informatique et qui nous ont paru intéressantes. L’une d’entre elles, dans le domaine de l’intelligence artificielle, citée fréquemment, revient à [Gruber, 1993] : Définition 1 An ontology is a formal, explicit, specification of a shared conceptualization. (Une ontologie est une spécification formelle explicite d’une conceptualisation.) Construire une ontologie consiste dans un premier temps à mener un travail de conceptualisation, qui nécessite d’identifier les concepts du domaine à modéliser en se basant sur l’étude de corpus relatif à ce domaine. De nombreux autres travaux se sont basés sur cette définition. [Charlet et al., 2003] donnent la définition suivante : Définition 2 Une ontologie implique ou comprend une certaine vue du monde par rapport à un domaine donné. Cette vue est souvent conçue comme un ensemble de concepts —e.g. entités, attributs, processus —, leurs définitions et leurs interrelations. On appelle cela une conceptualisation. […] Une ontologie peut prendre différentes formes mais elle inclura nécessairement un vocabulaire de termes et une spécification de leur signification. […] Une ontologie est une spécification rendant partiellement compte d’une conceptualisation. Pour [Roche, 2005] une ontologie possède les caractéristiques suivantes : Définition 3 Définie pour un objectif donné et un domaine particulier, une ontologie est pour l’ingénierie des connaissances une représentation d’une modélisation d’un domaine partagée par une communauté d’acteurs. Objet informatique défini à l’aide d’un formalisme de représentation, elle se compose principalement d’un ensemble de concepts définis en compréhension, de relations et de propriétés logiques. Selon ces différentes définitions, toute ontologie doit au moins posséder les caractéristiques suivantes : – des concepts : un concept peut être un objet concret ou abstrait, qui apparaît dans le domaine à modéliser. – des propriétés : il s’agit de caractéristiques qui permettent de décrire plus précisément les concepts. – des relations : les relations permettent relier les différents concepts de l’ontologie entre eux. Il existe de nombreuses relations : la relation de méronymie, la relation de synonymie, la relation de subsomption (is-a), etc. Ces différentes définitions nous renseignent sur la notion d’ontologie dans un contexte informatique, mais elles ne nous donnent aucune méthodologie pour construire une ontologie relative à un domaine spécifique.

Méthodologie de construction d’ontologie

 Il existe évidemment de nombreuses méthodologies qui permettent de développer des ontologies, mais aucune d’entre elles n’est admise ou reconnue par l’ensemble de la communauté scientifique. Certaines méthodes relèvent parfois plus de l’intuition que de la rigueur scientifique. La plupart admettent qu’il est nécessaire d’identifier dans un premier temps les concepts et les relations. Mais on constate que, selon la méthodologie utilisée pour modéliser un même domaine, le résultat obtenu ne sera pas forcément le même [Mizoguchi, 2005], en raison des nombreux choix et critères que chaque ontologiste est amené à prendre au cours de cette première phase. La plupart des méthodes ne décrivent pas de manière précise les décisions à prendre ou les règles qu’il faut appliquer durant le processus de conceptualisation. Nous allons présenter une méthodologie qui nous a semblé intéressante, celle proposée par [Noy and McGuinness, 2003]. Méthodologie de Noy et McGuinness Selon [Noy and McGuinness, 2003], il est nécessaire au cours de la conception de l’ontologie de toujours se rappeler, particulièrement lorsque l’on est confronté à un problème, les trois règles de base suivantes : 78 1. Il n’y a pas qu’une seule façon correcte pour modéliser un domaine – il y a toujours des alternatives viables. La meilleure solution dépend presque toujours de l’application que vous voulez mettre en place et des évolutions que vous anticipez. 2. Le développement d’une ontologie est nécessairement un processus itératif. 3. Les concepts dans une ontologie doivent être très proches des objets (physiques ou logiques) et des relations dans votre domaine d’intérêt. Fort probablement, ce sont des noms (objets) ou verbes (relations) dans des phrases qui décrivent votre domaine. Leur méthodologie de construction d’une ontologie relative à un domaine particulier repose sur une série de sept étapes. Dans la première étape, il faut commencer par faire une description précise et détaillée du domaine sur lequel on va travailler afin de mieux percevoir ses limites, c’est-à-dire où il commence et où il s’arrête. Il faut aussi déterminer les applications que l’on souhaite faire de cette ontologie. La deuxième étape consiste à rechercher dans des bibliothèques d’ontologies mises à disposition, par exemple sur Internet, s’il n’existe pas déjà une ontologie qui correspondrait à ses besoins. Si l’on n’a pas eu la chance de trouver son bonheur dans les travaux existants, il va falloir passer à l’étape suivante. Dans la troisième étape, il faut lister les différents mots importants du domaine. Il ne faut surtout pas s’inquiéter si cette liste est extrêmement longue. Dans la quatrième étape, on définit les différentes classes et on établit une hiérarchisation entre elles. On peut soit commencer par définir le concept le plus général pour finir par les concepts les plus spécialisés (méthode descendante, en anglais top down), soit appliquer la méthode inverse ascendante (bottom up), soit choisir une méthode mixte qui combine les deux précédentes. L’étape cinq permet de décrire les classes plus précisément, en cherchant pour chacune ses propriétés ou attributs. L’étape six consiste à définir la cardinalité et le type (chaîne, bouléen, etc.) associés à chaque attribut. La dernière étape correspond au moment ou l’on pourra créer des instances (ou individus) de l’ontologie. 

Typologie des noms propres

 Dans cette partie, nous allons nous intéresser au domaine de la typologie des noms propres. Il s’agit maintenant de définir les différents concepts de notre typologie et les relations entre ces concepts sous la forme d’une ontologie. Nous allons appliquer les quatre premières étapes1 de la méthodologie de Noy et McGuinness. Pour décrire notre domaine, nous nous sommes basés sur les différentes typologies, utilisées dans le domaine de la linguistique et celles qui ont conduit à des systèmes de reconnaissance de noms propres, que nous avons décrits en détail au cours du premier chapitre. A partir de ces différents travaux, nous avons ensuite établi une liste de types de noms propres. Nous avons appliqué la méthode descendante pour définir et hiérarchiser nos différents concepts, que nous allons présenter dans cette partie. Ces différents concepts entretiennent entre eux une relation d’hyperonymie. 1Les étapes cinq et six seront présentées au chapitre 5 sur l’implémentation de notre modèle. 79 Cette typologie a pour racine le concept de nom propre, pour nœuds, des supertypes et pour feuilles, des types. 

Les quatre premiers supertypes 

Situés juste en dessous du concept de nom propre, les quatre premiers supertypes classent les noms propres suivant des traits syntaxo-sémantiques assez généraux. Ces traits peuvent facilement être reconnus par des systèmes d’extraction automatique de noms propres en se basant essentiellement sur le contexte linguistique apparaissant autour d’eux dans le texte. Dans notre ontologie, nous avons distingué : – les anthroponymes : trait humain – les ergonymes : trait inanimé – les pragmonymes : trait événement – les toponymes : trait locatif La figure 4.1 montre la représentation des différents concepts de supertype à l’aide du logiciel Protégé 3.1 2 , permettant de créer des ontologies. Fig. 4.1 – Les supertypes. Les anthroponymes Le supertype anthroponyme, comme le supertype toponyme, est un concept largement connu et communément admis dans le domaine de l’onomastique ou de l’étude des noms propres. Le trait humain est sans doute le trait le plus facile à percevoir et à reconnaître chez un nom propre. Les anthroponymes renvoient sur le plan sémantique à la notion de personne. Nous avons partagé le supertype anthroponyme en deux autres supertypes [Gross, 1995] : les anthroponymes individuels (Lassie, George Orwell, etc.) et les anthroponymes collectifs (Mérovingiens, Organisation mondiale de la santé, etc.). [Dubois, 1973], dans le Dictionnaire de linguistique, distingue les noms animés non humains, c’est-à-dire les animaux, et les noms animés, sous-catégorie dans laquelle il classe le trait humain. Cette distinction se fera au niveau des types célébrité et pseudo-anthroponyme (voir section 4.2.2). 2 http://protege.stanford.edu/ 80 Les toponymes [Lepesant, 2000] définit les toponymes ainsi : Les noms locatifs constituent une catégorie de noms d’objets dimensionnels, tels que leurs méronymes d’espace ont pour hyperonyme le mot lieu. Nous avons rassemblé sous le concept de toponyme tous les noms de lieu au sens général. Les toponymes regroupent diverses entités qui possèdent chacune une taille extrêmement variée. Cela peut aller du nom donné à une rue ou à un bâtiment, en passant par le nom d’une vaste zone géographique pouvant regrouper plusieurs pays, jusqu’à s’étendre au nom d’un ensemble contenant environ quelques millions de galaxies. Il est possible de diviser les toponymes en deux classes différentes : les toponymes naturels et les toponymes bâtis par les hommes. Les systèmes de reconnaissance automatique de noms propres arrivent à extraire les toponymes dans un texte journalistique [Friburger, 2002], car la plupart du temps, ils apparaissent dans ces textes, accompagnés de preuve externe (la ville de Tours) ou de preuve interne (le Mont Blanc) [MacDonald, 1996]. Les ergonymes Ergonyme (du grec ergon : travail, force) est un mot emprunté à [Bauer, 1985] : Noms des installations créées par l’homme servant à la production, […] noms de produits créés par et pour l’homme. Sous le type ergonyme, on peut retrouver des noms propres qui se rattachent soit au trait sémantique inanimé concret (Coca-Cola), soit au trait inanimé abstrait (Alice au pays des merveilles). Nous distinguons dans cette catégorie les ergonymes à caractère économique de ceux à caractère artistique. Les pragmonymes Les pragmonymes peuvent être définis comme des noms d’événements (comme le 14 juillet) ou de catastrophes naturelles (comme par exemple Katrina) ou non (comme par exemple Tchernobyl).

Type

Le type correspond à une classification plus détaillée que le supertype d’un nom propre. Cette classification est destinée principalement à la recherche d’information et à la traduction automatique. Pour associer un type à un nom propre, il faut souvent une intervention humaine. Dans le cadre de nos travaux, nous avons retenu au total 29 types que nous allons présenter dans cette partie. La figure 4.2 liste des exemples de noms propres classés en fonction de ces types. Cependant, certaines distinctions sont difficiles à réaliser et peuvent sembler arbitraires. Nous avons donc décidé de créer deux autres supertypes : – un supertype que nous appellerons Groupement et qui rassemble les anthroponymes collectifs correspondant à une association ou à une institution (politique, religieuse, culturelle, nationale, internationale, etc.). Ce supertype contient les types association, ensemble, entreprise, institution et organisation. – un supertype que nous appellerons Territoire car il n’est parfois pas évident de faire une distinction entre les pays (au sens états indépendants) et les régions incluses ou non dans les pays. Ce supertype contient les types pays, région et supranational. 81 En cas de polysémie (voir section 3.1.2 page 55), comme par exemple pour le nom propre Michelin qui correspond à la fois à une célébrité et à une entreprise et pour le nom propre Tempelhof qui correspond à la fois à un faubourg de Berlin et à un de ses aéroports, nous avons décidé de créer deux noms propres conceptuels différents. Nous associerons à chacun de ces noms propres un unique type. Rappelons aussi que les homonymes correspondent de même à des noms propres conceptuels différents même s’ils ont le même type. Par exemple, le nom propre Vienne, capitale de l’Autriche, sera lié au type ville, ses homonymes correspondant à une ville d’Isère et de Poitou-Charentes le type ville. 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *