Le Web Sémantique
Le Web est devenu depuis quelques années une source inépuisable d’information. Cela va du simple document textuel aux contenus multimédia. Le volume de ces données augmente exponentiellement d’année en année. Cependant, en raison de cette grande masse , nous devenons très vite dépassés par la quantité de documents disponibles sur le Web. Même si de nombreux outils, tels que les moteurs de recherche ou encore les agrégateurs de contenu, nous permettent d’accéder à l’information, ceci reste insuffisant, surtout dans l’ère du déluge de données. Il est alors nécessaire de développer des techniques permettant de faire interagir ces données. Ces interactions doivent nous permettre d’enrichir le Web actuel de fonctionnalités innovantes et à fort potentiel. C’est à cette tâche que s’est attelé le W3C en créant le web sémantique [BLHL+01]. Il s’agit de proposer des technologies supportant le passage d’un Web à contenu statique à un Web avec des données interprétables aussi bien par des humains que par des machines. Le but de cette extension du Web est d’apporter une structure pour permettre aux machines de communiquer, d’échanger et d’interpréter des données. Il est nécessaire de noter que cette version du Web n’est qu’une évolution du Web actuel, les standards tels que HTML, CSS, HTTP seront toujours utilisés, mais devrait néanmoins aboutir à une révolution de celui-ci. Pour atteindre ce but, un ensemble de langages est proposé afin d’automatiser le processus de représentation et de manipulation des données sur le Web. Dans cette section, nous allons nous intéresser à ces différents langages. Nous commencerons par le modèle de données RDF et les langages d’ontologie qu’il est possible de lui associer. Nous passerons ensuite au langage d’interrogation SPARQL, puis présenterons l’initiative du Linked Open Data et ses dernières évolutions. Nous nous intéresserons également aux moteurs d’inférence et leur apport dans la gestion des données sémantiques. Nous présenterons quelques outils de gestion proposés par le Web sémantique, à savoir Protégé pour l’aide à la gestion et création des ontologies, ainsi que Virtuoso pour la gestion des données RDF. Cependant malgré tous les efforts qui peuvent être fournis pour rendre le Web Sémantique plus omniprésent, il est pour le moment impossible d’obliger tous les utilisateurs du Web (essentiellement ceux qui publient) à utiliser des standards qui leur paraissent bien plus compliqués qu’une simple page HTML. En effet, pour exploiter pleinement le potentiel qu’offrent les technologies du Web sémantique, il faut passer par des systèmes d’extraction de connaissances ou bien avoir identifier des bases de connaissances existantes. De même, une grande partie des données disponibles sur le Web sont représentées par des document textuels qu’il convient de traiter de manière indépendante afin d’extraire le potentiel le plus large. Dans ce qui suit, nous présentons les principaux standards définis par la communauté du Web Sémantique qui sont utilisés dans notre outil d’extraction et de gestion de la connaissance.
Architecture du Web sémantique
L’initiative principale du Web sémantique est la proposition d’un ensemble de technologies pour la publication de données sémantiques sur le Web. Pour présenter ces principes, nous commençons par introduire une architecture globale communément acceptée [HJS11 ; 8 1.1. Le Web Sémantique Hor+05]. Le Web Sémantique défini par Tim Berners-Lee est structuré en couches telles que le montre la figure 1.1. Cette figure, communément appelée Semantic Web Stack ou encore Semantic Layer Cake, présente les technologies en couches superposées, de l’élément le plus détaillé au plus abstrait. 1 Figure 1.1 – Layer cake : Architecture du Web sémantique. Dans cette architecture, nous identifions 2 principales parties : (1) les protocoles et langages standards, (2) les composants logiciels. 1. Les protocoles et langages : — URI/IRI : désigne les protocoles d’identification des ressources sur le web, chaque ressource devra être identifiée de manière unique. Elle permettra de donner accès à l’ensemble de la description d’une entité donnée. — RDF/XML : désigne les langages de description de données. Il s’agit de langages balisés, dont chaque ’tag’ désigne l’interprétation à donner à l’information contenu. Les espaces de noms (namespaces) sont des conteneurs ou répertoires pour un vocabulaire particulier. Les préfixes de ces espaces de noms permettent de définir des raccourcis. — SPARQL/RDFS/OWL/RIF : représente les langages de modélisation et d’interrogations des données sémantiques. 2. Les composants logiciels : Cette partie permet d’implémenter des applications qui reposent sur les protocoles définis précédemment. Ces applications reposent sur des logiques et des règles de raisonnement qui permettent d’inférer de nouvelles connaissances. La provenance quant à elle est assurée par le billet de signatures numériques qui permettent de retrouver l’origine des données, connaissances, ontologies. Ceci afin de permettre d’avoir un Web plus fiable. Dans les sections qui suivent, nous nous intéresserons principalement aux couches basses de cette architecture, à savoir le langage RDF, les ontologies et le langage d’interrogation SPARQL.
La représentation RDF
Le RDF [KCM04] pour Resource Description Framework est un langage de description de données recommandé par le W3C, la première spécification date de 1999 2 , suivie par une autre en 2004 3 . Plus récemment, une version dénotée RDF1.1. a été publiée en 2014 4 . Le but est de proposer un modèle de données plus simple que d’autres représentations déjà proposées telles que XML, afin de faciliter l’interaction et la diffusion des données sur le Web. Le RDF se présente sous forme de triplets Sujet-Prédicat-Objet (S-P-O) où le Sujet désigne une ressource ; le Prédicat, la relation et enfin l’Objet peut être soit une ressource ou bien un attribut qualifiant le sujet, il se présente alors sous forme de littéral. Une ressource est identifiée par une URI (Unique Resource Identifier) [BLFM98] (ou bien IRI pour Internationalized Resource Identifier). Tel que son nom l’indique, l’URI est un identifiant unique, il permet d’uniformiser tous les accès à une même information (ressource). Une URI syntaxiquement correcte ne doit pas contenir de caractères spéciaux (« <« , « > », ’ »’ (double quotes), espace, « { « , « } « , « | », » \\ », « ∧ », et » ‘ « ). Cependant, en l’absence de ressource attitrée, des nœuds vides (blank nodes) sont attribués. Ceci est particulièrement utile dans le cadre d’une extraction de connaissances à partir de texte car les entités ne sont pas toujours facilement identifiables en début d’analyse du texte. Il existe plusieurs syntaxes pour représenter des données RDF : — RDF/XML : est la première représentation à avoir vu le jour, elle respecte des règles de balisage du XML, ce qui rend pratique le parcours de graphe. Pour ces mêmes raisons, ce formalisme est aussi considéré comme verbeux. — N-Triples : il s’agit de présenter un triplet par ligne, chaque triplet doit se terminer par un « . », les URI doivent être entre « <> ». Ce formalisme est facilement lisible par l’être humain mais ne supporte aucune compression du volume de données. — Turtle/Notation3 : est une sous représentation de triplets N3. Elle permet une représentation plus concise en utilisant par exemple le ”, ” pour indiquer la présence de plusieurs couples sujet-prédicat pour un même objet, alors que ”; ” indique la présence de plusieurs prédicats pour un même sujet.
Les ontologies
Le web actuel est essentiellement syntaxique, le langage HTML permet d’uniformiser l’affichage et la publication des données mais est pauvre en sémantique. Le challenge est alors de proposer un langage basé sur une sémantique formelle. C’est ainsi qu’est venue l’idée d’utiliser des ontologies. La notion d’ontologie associée à l’intelligence artificielle est apparue au début des années 90. Différentes définitions ont vu le jour. La plus citée et la plus pertinente reste celle de Gruber [Gru93a], il décrit une ontologie comme: « une spécification explicite d’une conceptualisation ». Une conceptualisation est une vision commune d’un objet du monde réel. Cet objet peut être physique ou abstrait. En 1997, [Bor97] affine cette définition en précisant que la conceptualisation doit être partagée, elle devrait exprimer une vision partagée de l’objet décrit, afin qu’elle puisse être interprétée facilement par un programme automatique. Quelques années plus tard, [Bac01] présente une ontologie comme le résultat d’une modélisation. Celle-ci porte sur la caractérisation de primitives pour la représentation des connaissances. Enfin, les auteurs de [Bou+03] définissent les ontologies comme « des modèles partagés d’un domaine encodant une vue qui est commune à un ensemble de différentes parties ». Ces définitions offrent des points de vues divers et complémentaires. En les synthétisant, nous pouvons introduire notre propre vision de ce que représente une ontologie. Une ontologie permet de définir un vocabulaire commun et partagé pour un domaine particulier. Ceci a pour objectif de fournir la communication entre agents. Elle est développée pour faciliter l’échange et la réutilisation des vocabulaires. Les ontologies sont populaires dans différents domaines de recherche à savoir : l’ingénierie des connaissances, le traitement automatique du langage naturel, les systèmes d’information coopératifs et la gestion des connaissances. De ce fait, une ontologie est constituée des éléments suivants : — Des classes modélisant des concepts du monde réel. Par exemple : Homme, Lieu, Achat… Ces classes peuvent être organisées de manière hiérarchique afin de permettre l’expression des relations de subsomption, c’est à dire des relations d’héritage. — Des propriétés, exprimant les relations et les interactions entre les classes ou encore décrivant des propriétés de la classe considérée. — Des axiomes explicitant des interactions qui sont vérifiées dans le monde réel. Exemple : P arent = P erson ∧ ∃hasChild (un parent est une personne qui a au moins un enfant).