Connaissances requises
Ce chapitre présente les connaissances requises pour la bonne compréhension des contributions détaillées dans ce document. L’intégralité des outils présentés est liée à ces connaissances, en les réutilisant, les améliorant, ou même en s’en servant comme base pour l’implémentation. La première section traite des technologies du web sémantique, qui sont au cœur du projet puisqu’il s’agit de raisonner sur des flux de données. La partie suivante détaille le Linked Open Data, un vaste ensemble de bases de connaissances libres d’accès en ligne, qui est utilisé pour évaluer la pertinence des origines potentielles d’anomalies dans Waves ; d’autres sources de données de nature cartographiques sont listées dans la section suivante, et sont utilisées dans le même but. Dans les sections suivantes se trouve la liste des sources de données événementielles, qui doivent être analysées et traitées afin d’identifier les origines potentielles des anomalies détectées par le projet.
Enfin vient la présentation de LiteMat, un système d’encodage pour les composants des graphes de connaissances qui a été développé au sein du LIGM. J’ai utilisé ce projet dans le développement de la sérialisation PatBin ainsi que le requêtage sur PatBinQL. J’ai également étendu PatBin pour le support de la propriété owl:sameAs, qui permet d’idetifier des concepts différents faisant référence à un même élément, comme expliqué par la suite (section 5).
A l’origine, le web était constitué de pages simples, avec pour seul objectif d’afficher de l’information ; ce n’était que les débuts d’internet, avec des débits faibles et des machines peu performantes. Après plusieurs années, on a commencé à parler de web 2.0, la première évolution majeure du web, avec pour caractéristique principale l’interaction avec les utilisateurs. Cela correspond à l’essor des réseaux sociaux, des wikis et du « crowdsourcing « . Cette transformation d’un web où l’internaute passait essentiellement son temps à lire du contenu à un web où il fournit directement (ou indirectement) du contenu est à l’origine du mouvement Big Data, où d’importantes quantités de données doivent être gérées.
Le web sémantique, tel que défini par Tim Berners Lee [1], est l’évolution du web 1.0. Son innovation principale est de permettre la réutilisation de données, en en facilitant la recherche, la combinaison et l’utilisation. Pour cela, les données disponibles sont organisées en un réseau sémantique, une structure sémantique organisée par le biais de métadonnées. Les métadonnées sont des données décrivant d’autres données : ainsi, on peut obtenir des informations sur chaque donnée annotée, ce qui facilite sa recherche (par exemple, on peut spécifier que la donnée Steven Spielberg, associée à un film, correspond à un nom de réalisateur). La sémantisation des données facilite leur utilisation à la fois pour l’utilisateur et pour la machine.
Une ontologie est constituée d’un ensemble de termes structurés permet- tant de représenter des connaissances ; elle peut être modélisée sous forme de graphes et réemployée librement par les utilisateurs [2]. Pour des projets importants, il est possible d’étendre une ontologie en la combinant avec des concepts issus d’autres ontologies, afin de créer un modèle de données qui convient au cas d’utilisation. Des règles peuvent être définies afin d’établir les liens pouvant être effectués, afin de conserver une structure logique et correcte. De plus, il est possible d’extraire des informations d’une ontologie de manière ciblée en fonction de certains critères.
La figure 2 montre un exemple d’ontologie simple, permettant de représenter les ressources humaines au sein d’une université. Il ne s’agit que d’une hiérarchie, mais elle peut être réem- ployée ou étendue de diverses façons. Par exemple, on pourrait s’en servir comme base pour représenter des cours, en précisant que des cours ont un responsable et un professeur en charge, et s’applique à des étudiants.Abox (assertions). Une base de connaissances est donc formée d’une Abox et d’une Tbox : elle contient des graphes de connaissances, ainsi que les règles permettant de les exploiter. Si l’on reprend l’exemple figure 2, la Tbox regrou- pera les informations représentées, indiquant par exemple qu’un professeur fait partie du personnel, et que personnel est disjoint d’étudiants. Avec la Abox, on pourra préciser que Alice est une professeur. En utilisant les règles de la Tbox, on pourra raisonner pour déduire qu’Alice fait donc partie du personnel, mais qu’elle n’est pas une élève.