Alignement guidé par le texte : TOM

Alignement guidé par le texte : TOM

Introduction

De nombreuses méthodes d’alignement des ontologies ont été proposées au cours de la dernière décennie, dans l’objectif de fusionner des ontologies [de Bruijn et al., 2006] ou de développer des connaissances [Huza et al., 2006]. La diversité des types de ressources et leur hétérogénéité sémantique imposent en effet d’établir des ponts entre les différentes ressources que l’on cherche à exploiter. Le processus d’alignement repose généralement sur deux phases : 1) la transformation des ontologies en un format facile à exploiter (ex. OWL) et 2) la recherche de correspondances entre les entités des ontologies à aligner. Notre approche est complémentaire de celles de l’état de l’art en ce qu’elle s’appuie sur des sources d’informations externes liées au domaine de spécialité et à l’application visée pour guider le processus d’alignement, mais elle s’en distingue par le fait que cette ressource externe est textuelle, une approche qui a encore été peu explorée. Le texte n’est pas considéré comme une base de connaissances mais plutôt comme un support de travail : on peut exploiter les propriétés distributionnelles des étiquettes des entités ontologiques pour proposer des correspondances entre ces dernières et pour corroborer ou invalider les correspondances détectées par d’autres méthodes d’alignement. Exploiter une source textuelle impose en contrepartie de travailler sur des ontologies lexicalisées où les étiquettes des entités sont des mots de la langue considérée, permettant de lier les textes et les ontologies. Nous proposons donc une méthode d’alignement guidé par le texte qui prend en entrée deux ontologies lexicalisées et un texte découpé en phrases contenant des unités textuelles annotées et qui fournit en sortie un ensemble de correspondances entre des paires d’entités sémantiques appartenant aux deux ontologies sources (voir figure 3.1). Nous nous appuyons sur la distribution des entités sémantiques repérées dans le texte pour extraire deux types de relations, des relations d’association et d’équivalence sémantique.

Types de correspondances recherchés

Il existe une grande richesse des relations existantes entre les mots dans un texte (ex. synonymie). Ces relations vont jouer un rôle important pour extraire des correspondances entre les entités de ressources. Une correspondance entre entités sémantiques est une relation binaire entre deux entités de deux ressources différentes. A partir du texte, nous repérons les entités sémantiques pertinentes du domaine et nous repérons la distribution des entités associées aux unités textuelles. Ces deux éléments (la présence des entités et leur distribution dans le texte) permettent de repérer les deux relations suivantes : la relation d’association sémantique se définit par la liaison qui existe entre deux entités qui ont tendance à être souvent contiguës. Ces entités tendent à se combiner l’une avec l’autre ou à apparaître ensemble. Cette relation indique une proximité sémantique entre les entités. Prenons l’exemple de étudiant et université qui sont deux entités sont souvent liées dans le domaine académique, sol et bactérie sont aussi deux entités qui sont souvent liées dans le domaine biologique. La nature de la relation d’association est différente dans les deux exemples mais ce sont des termes qui apparaissent souvent combinés l’un à l’autre ; dans le premier exemple, l’étudiant est inscrit dans une université. Dans le deuxième exemple, dans le sol, les bactéries se fixent et se multiplient. Cette relation d’association sémantique peut correspondre aux rôles dans les ontologies. la relation d’équivalence sémantique est un lien entre deux entités qui renvoient à la même notion. Ces entités sont sémantiquement identiques et recouvrent le même sens (ex. dans une terminologie, cette relation correspond à deux termes synonymes). Dans ce qui suit, nous décrivons la méthode proposée pour chercher les deux types de relations présentées entre deux ontologies lexicalisées.

Calcul d’alignement

Pour mettre en relation sémantiquement les entités d’ontologies repérées dans le texte sous forme d’unités textuelles, nous nous appuyons sur leur répartition dans le texte. Nous exploitons les relations que les unités textuelles entretiennent pour proposer des relations entre les entités sémantiques associées. Elles peuvent apparaître de deux manières ; certaines tendent à apparaître ensemble on s’intéresse alors à leur cooccurrence ; d’autres n’apparaissent pas ensemble mais sont substituables l’une à l’autre, on s’intéresse à leur cooccurrence avec les mêmes unités textuelles. Dans cette section, nous présentons les deux étapes qui nous permettent d’extraire ces deux relations : (1) le calcul de correspondances, et (2) le filtrage guidé par la cooccurrence.

Calcul de correspondances

Le but du calcul de correspondances est de repérer les entités qui sont suffisamment liées. Nous tenons compte de la force d’association lors de la correspondance. [Grefenstette, 1994] donne trois niveaux d’anités de mots : (1) le premier niveau : les mots qui tendent à apparaître ensemble, (2) le deuxième niveau : les mots qui partagent les mêmes contextes (similarité), et (3) le troisième niveau, permet la distinction de sens des mots. Dans ce travail, nous optons pour l’utilisation des deux premiers niveaux (cooccurrence et similarité). Notre approche est simple. Nous procédons comme suit : (1) définition du contexte, (2) calcul d’associations, et (3) calcul de similarités. Définition du contexte Le contexte d’apparition d’une entité repérée dans le texte est déni par rapport aux segments de texte. Dans les analyses distributionnelles, le contexte de ces entités peut être une fenêtre de mots, un paragraphe ou une phrase. Nous choisissons, dans un premier temps, la phrase comme contexte. Calcul d’associations La cooccurrence de deux entités repérées dans le texte est le fait que deux entités apparaissent simultanément dans un même contexte. Le traitement des cooccurrences permet de considérer les entités sémantiques dans leur contexte et d’extraire les relations qui peuvent exister. La cooccurrence est exprimée par un score de fréquence de cooccurrences, ceci n’est pas suffisamment expressif. Pour avoir une force d’association, nous avons donc besoin de plus d’informations sur la répartition des cooccurrences d’entités dans le texte. Autrement dit, nous étudions la répartition des paires d’entités à rapprocher dans tous leurs contextes ; le fait d’apparaître ensemble et avec toutes les autres entités sémantiques. Nous voulons une mesure de cooccurrences qui tienne compte non seulement du nombre de cooccurrence entre les entités à rapprocher mais aussi du nombre de cooccurrence avec les autres entités et leur fréquence dans le texte. Nous prenons en compte les deux critères suivants : Lien entre deux entités le fait que la présence d’une entité dans un contexte entraîne la présence de l’autre entité de la paire dans le même contexte. Ce lien est représentée par le nombre de fois où les deux entités sémantiques, apparaissent ensemble. On parle de la fréquence absolue de cooccurrence. Lien de chaque entité avec d’autres entités le fait que l’apparition d’une entité de la paire à rapprocher entraîne l’apparition des autres entités sémantiques dans les mêmes contextes. Ce lien est représenté par : (i) le nombre de fois où la première entité est présente avec d’autres entités et toute seule, et (ii) le nombre de fois où la deuxième entité est présente avec d’autres entités et toute seule. Plusieurs méthodes ont été proposées pour attribuer une force d’association à une paire d’entités sémantiques. Parmi ces mesures, nous proposons d’adopter celle de [Jaccard, 1901] : SJaccard = |E1 ∩ E2| |E1 ∪ E2| où : E1 est l’ensemble d’entités de la première ontologie à rapprocher et E2 est le nombre d’entités de la deuxième ontologie à rapprocher. E1 ∩ E2 est le nombre de fois de cooccurrence entre la paire d’entités à rapprocher ; E1 ∪ E2 donne le nombre d’occurrences des entités des ontologies ainsi que les cooccurrences avec les autres entités. Nous construisons la matrice d’associations en nous fondant sur la distribution des couples d’entités dans le texte. Cette matrice est symétrique. Elle contient en lignes et en colonnes les entités sémantiques des deux ontologies dont des mentions figurent dans le texte (voir la figure 3.2). Le score d’associations correspond au calcul de la mesure Jaccard. Une fois la matrice construite, nous utilisons une partie de cette matrice pour extraire les relations d’association sémantique (voir figure 3.3) entre les concepts. En pratique, l’ensemble de la matrice fournit des relations d’association des deux ressources. Calcul de similarités La matrice de cooccurrences de la figure 3.2 nous sert aussi à calculer la similarité entre entités. Ce calcul repose sur l’étude des deux vecteurs de scores de cooccurrences des paires d’entités rapprochées. Autrement dit, nous exploitons la cooccurrence de chaque entité avec toutes les entités des deux ontologies (voir figure 3.4). Différentes mesures de similarité ont été proposées en recherche d’information pour quantier les similarités entre documents. Une mesure possible est le cosinus qui mesure

Filtrage

A partir des deux matrices précédentes, nous disposons de (n x m) x 2 relations entre entités avec un score associé. Le filtrage est une étape qui permet d’éliminer les correspondances périphériques possédant des scores très bas. Cette étape a pour but de faciliter l’exploitation des correspondances entre entités sans pour autant se noyer avec un ot de correspondances périphériques qui sont ingérables. Pour ce faire, plusieurs méthodes de filtrage sont appliquées. La plus intuitive est de xer un seuil en tenant compte de tous les scores dans chaque matrice (matrice de scores de cooccurrences et de scores de similarités). Nous avons choisi comme seuil la moyenne entre la valeur minimale et la valeur maximale des scores (score de cooccurrence ou score de similarité). A partir de ce seuil, nous estimons que les correspondances pertinentes sont celles qui ont un score associé supérieur au seuil xé. Les scores des correspondances retenues indiquent la fiabilité de la correspondance entre entités et cela permet de filtrer le résultat de l’alignement. La sortie de cette étape de calcul des correspondances est un ensemble de 5-uplets contenant l’identifiant de la relation, la paire d’entités mise en correspondance, la relation extraite et un score indiquant la fiabilité de cette relation. Deux entités peuvent être liées par deux relations différentes. Une entité peut être liée à plus d’une entité. Exemple Nous reprenons l’exemple du chapitre précédent et nous l’utilisons dans la phase de filtrage. Nous xons le seuil pour les matrices de cooccurrences et de similarités M atriceC et M atriceS respectivement, comme la moyenne du minimum et du maximum des scores de cooccurrences et des scores de similarités qui sont différents de 0. Le seuil de M atriceC est seuilC = 0.39 ((0.65 + 0.14)/2) et le seuil de M atriceS est seuil S = 0.56 ((1 + 0.13)/2). Les relations d’association et d’équivalence sémantiques retenues sont présentées dans le tableau 3.1. Nous générons 7 relations d’associations sémantiques et 15 relations d’équivalence. Dans la section suivante, nous décrivons l’implémentation de notre méthode d’alignement d’ontologies guidé par le texte TOM.