APPARIEMENT DE DONNÉES GÉOGRAPHIQUES ET INTERCONNEXION DES DONNÉES SUR LE WEB
Cette partie dresse un état de l’art sur l’appariement de données géographiques ainsi que l’interconnexion des données du Web. Ces deux domaines partagent le même objectif de mise en correspondances d’objets géographiques ou de ressources homologues. Dans la plupart des cas, cette mise en correspondance est réalisée par comparaison élémentaire des valeurs des attributs des objets ou des propriétés des ressources. La comparaison des attributs ou des propriétés se fait en calculant l’écart entre leurs valeurs grâce à des mesures de distances, ou en calculant la proximité entre leurs valeurs en utilisant des mesures de similarité. Une mesure de distance (resp. similarité) est une fonction qui associe une paire de valeurs à une valeur numérique qui quantifie l’écart (resp. la proximité) entre elles. Les notions de mesures de distance et de similarité sont fortement liées puisque l’une est souvent définie comme étant l’inverse de l’autre. Les notions de métriques de distance ou de similarité et la relation qui existe entre elles sont définies par (Shihyen Chen et al, 2009) et (Euzenat et shvaiko, 2007) d’une manière plus formelle. Les définitions des métriques ont donc un sens mathématique plus spécifique. Une métrique de distance doit respecter, pour des proposées dans la pratique pour calculer l’écart ou la proximité de valeurs ne respectent pas forcément toutes les conditions de la définition formelle de métrique (ex. la condition d’identité des indiscernables n’est pas toujours respectée). Nous utiliserons alternativement les termes distance ou similarité selon l’interprétation du sens de la mesure concernée. Les mesures de distance ou de similarité sont dites normalisées si elles fournissent uniquement des valeurs dans l’intervalle [0, 1]. Une distance normalisée peut être facilement transformée en similarité par le calcul suivant : 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡é = 1 − 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒. Dans une tâche de mise en correspondance, deux vérifications principales sont nécessaires afin d’associer deux objets (ou ressources) a et b: la distance (resp. une similarité) entre a et b est inférieure (resp. supérieure) à un seuil choisi, tout en étant minimale (resp. maximale) pour a et b. La notion de seuil de distance ou de similarité est donc très importante pour la tâche de mise en correspondance.
Après la présentation de quelques généralités sur les approches proposées dans les deux domaines, nous détaillons dans cette partie, pour chaque domaine, les différentes propositions de l’état de l’art qui sont susceptibles de répondre, même partiellement, aux objectifs de ce travail de thèse. Nous conclurons par une synthèse des avantages et limites des approches existantes pour résoudre l’hétérogénéité géométrique des données géoréférencées publiées sur le Web. Dans le domaine des sciences de l’information géographique, l’appariement est le processus qui vise à mettre en correspondance des objets géographiques issus de bases de données hétérogènes qui représentent le même phénomène du monde réel (devogele, 1997 ; Walter et Fritsch, 1999). On cherche donc à trouver des similarités dans la représentation des entités du monde réel entre bases de données géographiques hétérogènes. La comparaison entre objets de base de données géographique s’effectue principalement sur trois critères : la similarité des géométries des objets, la similarité des valeurs des attributs non géométriques des objets, et la similarité des relations topologiques (les voisinages) des objets. Les critères non géométriques concernent les attributs quantitatifs (ex. la population, la densité) ou qualitatifs (ex. le label, la nature) qui décrivent les objets géographiques. La comparaison des géométries se fait sur plusieurs caractéristiques comme la localisation, la forme, l’orientation ou encore la taille. Les géométries étant l’élément central dans les bases de données géographiques, de nombreux travaux se sont intéressés aux meilleurs moyens de les comparer et de rechercher des similitudes entre celles-ci. Cette comparaison s’effectue en utilisant des mesures de distance adaptées aux types des géométries comparées. De nombreuses mesures de distances ont été proposées dans la littérature et nous les discutons dans la suite de cette section. Nous présenterons ensuite les différentes approches d’appariement de données géographiques selon les stratégies adoptées pour résoudre les problèmes d’hétérogénéité géométrique.
L’appariement de données géographiques est très important dans le domaine des données géographiques, car il répond à plusieurs besoins (devogele, 1997; olteanu, 2008). L’une des utilisations les plus importantes de l’appariement reste l’intégration de bases de données géographiques. L’intégration de données cherche à combiner les données de différentes sources, et fournir à l’utilisateur une vue unifiée de ces données (Lenzerini, 2002). Dans le cas de bases de données géographiques, la définition reste la même, même si les techniques utilisées sont propres à ce domaine. Un processus d’intégration de données est constitué de trois étapes : la préparation des données, l’appariement des schémas et des données puis l’intégration finale des schémas et des données (Devogèle et al., 1998). Le but de l’intégration peut être l’obtention d’une seule base de données finale avec un schéma unifié et des données non redondantes. Il peut être aussi de garder le schéma de l’une des bases à intégrer et de transformer toutes les données des autres, sans redondance, dans ce schéma. Le but final de l’intégration peut être la création d’un seul schéma fédéré auquel se relient les schémas des bases intégrées. Dans ce cas un système fédéré permet d’accéder à toutes les données selon ce schéma fédéré. L’appariement peut être utilisé à des fins de contrôle de qualité (interne) des données c.-à-d. la vérification de la conformité des données aux spécifications de leur producteur. L’appariement sert dans ce cas à associer chaque objet à contrôler à (aux) l’objet (objets) correspondant(s) dans le jeu de données de référence. Ensuite, les objets à contrôler peuvent être comparés à leurs objets correspondants dans le jeu de données de référence pour évaluer leur qualité. L’appariement peut être aussi un moyen de propagation de mises à jour d’une base de données géographique de références aux bases de données utilisateur dérivées de cette base. Apparier les objets des jeux de données utilisateurs aux objets correspondants dans la base de données de référence permet de propager les mises à jour de cette dernière seulement aux objets concernés dans les bases dérivées. Apparier un jeu de données à une base de données de référence peut être utilisé également à des fins de recalage de géométries. Le recalage est un processus qui vise à joindre les géométries de deux jeux de données géographiques représentant une même entité du monde réel de sorte à ce qu’elles se superposent (Méneroux et Brasebin, 2015). Ce processus peut s’appliquer sur les données Raster comme sur les données Vecteur. Dans le cas des données Vecteur, l’appariement sert à trouver des points homologues entre le jeu à recaler et la base de données de référence. Ces points sont utilisés dans le calcul d’une transformée de recalage qui est appliquée ensuite sur l’ensemble des géométries du jeu de données à recaler.