PROPOSITIONS D’APPROCHES D’INTERCONNEXION ET DE VISUALISATION DES DONNÉES GÉORÉFÉRENCÉES SUR LE web DE DONNÉES
Choix du seuil de la mesure de distance
Dans un processus d’interconnexion, choisir un seuil de distance pour un critère donné revient à fixer une limite de distance au-delà de laquelle des valeurs des propriétés comparées sont considérées comme non similaires (distinctes). Dans le cas de LIMES, les mesures implémentées fournissent en sortie une valeur de similarité, qu’elle soit calculé à partir d’une mesure de distance ou non. Le seuil fourni par l’utilisateur pour chaque critère est donc un seuil de similarité qui précise la limite de au dessous de laquelle les deux valeurs comparées sont considérées comme non similaires.
Dans le cas de Silk, comme nous l’avons vu avant, le choix de la valeur du seuil de distance est essentiel au calcul de la similarité. La définition d’un seuil de distance peut être très délicate. L’expert qui configure l’interconnexion doit s’assurer de choisir une valeur suffisamment large pour associer les valeurs homologues, et suffisamment petite pour éviter l’association de valeurs distinctes. En ce qui concerne la comparaison des géométries, l’expert de l’interconnexion fixe le seuil de distance par estimation de l’écart maximal possible entre les géométries des ressources en s’appuyant le plus souvent sur les connaissances qu’il possède sur celles-ci.
Par exemple, s’il s’agit de géométries qui sont supposées être localisées au même endroit pour les ressources homologues, l’expert peut estimer le seuil en prenant en compte l’écart possible entre les géométries dû à leurs imprécisions. Le seuil peut donc être défini comme à la somme des précisions planimétriques des deux jeux de données, en considérant qu’au-delà de cette somme les géométries ne peuvent pas représenter la même entité géographique.
Dans le cas où les géométries des ressources sont modélisées différemment entre les deux sources (ex. ressources localisées par des points sur l’axe de la route dans le premier jeu de données et ressources localisées par des points sur le bord de la 103 route),
l’expert peut fixer le seuil à la somme des précisions planimétriques des jeux de données auquel s’ajoute l’écart possible entre les deux modélisations géométriques (ex. l’écart moyen entre l’axe et le bord d’une route dans la zone qui contient les données). Le raisonnement que l’expert suit dans ce cas peut également être formulées selon des règles comme celles présentées dans l’Encadrée 4.2.
Neutralité du critère de comparaison des géométries
Décider de la neutralité d’un critère d’appariement revient à spécifier s’il faut l’inclure ou pas dans une interconnexion. Il s’agit principalement d’une décision prise par l’expert de l’interconnexion en amont plus que d’un paramètre à fixer. L’expert peut se référer à la qualité des données pour décider si un critère de comparaison possible est utilisable ou pas pour l’interconnexion.
Par exemple si l’expert considère qu’entre les deux jeux de données, la comparaison des labels des ressources est un critère d’interconnexion possible, mais après l’analyse des données, les valeurs de ces labels s’avèrent très hétérogènes ou peu renseignées,
l’expert peut décider de ne pas utiliser ce critère pour l’interconnexion. Dans le cas de la comparaison des géométries, la décision peut par exemple être basée sur la qualité de précision planimétrique des géométries. L’expert peut considérer, pour un contexte précis, que le critère de comparaison de géométries ne doit pas être pris en compte dans l’interconnexion si la précision planimétrique de l’un des deux jeux de données dépasse les un certain seuil.
La possibilité de renoncer à utiliser la comparaison des géométries pour l’interconnexion est particulièrement utile dans le cas de données représentant des entités géographiques dotées de contours vagues. Dans ce cas, les décisions peuvent être formulées selon les règles présentées dans l’Encadré 4.4