La comparaison de références spatiales

FORMALISATION ET ACQUISITION DES CONNAISSANCES POUR LA QUALIFICATION DES RÉFÉRENCES SPATIALES DIRECTES SUR LE web DE DONNÉES

Le paramétrage d’un processus d’interconnexion fondé sur la comparaison de références spatiales nécessite de disposer de connaissance sur les caractéristiques de ces références spatiales. En effet, des caractéristiques différentes d’une géométrie à une autre engendrent des hétérogénéités. Les caractéristiques des géométries doivent donc être formalisées pour pouvoir être prises en compte automatiquement dans un processus d’interconnexion. Représenter formellement ces caractéristiques sous forme de connaissances exploitables nécessite d’abord la définition d’un vocabulaire. Nous présentons dans cette partie les choix de modélisation de ce vocabulaire ainsi qu’une approche d’acquisition des connaissances pour associer à chaque géométrie d’un jeu de données des métadonnées sur ses caractéristiques formalisées conformément à notre vocabulaire.

1 Un vocabulaire pour décrire la sémantique des XY

Dans la partie 1.1.3 nous avons identifié différentes causes d’hétérogénéité géométrique inter et intra sources de données. Nous avons vu que différents points de vue sur le monde réel peuvent se manifester par des niveaux de détail différents d’un jeu de données à un autre. Ceci se concrétise par des spécifications et des processus de saisie différents et donc des représentations géométriques différentes d’une source de données à une autre. En outre, les erreurs de saisie liées aux facteurs humain et matériel, ainsi que la nature ouverte, souvent collaborative, de certaines sources de données peuvent accentuer les hétérogénéités géométriques au sein d’un même jeu de données. Un niveau de détail géométrique et des spécifications de données bien définis nous permettent de comprendre le sens de chaque géométrie : quel type d’entité géographique elle représente, quelles sont ses règles de saisie, quel est l’élément caractéristique de la forme des entités géographique choisi pour sa modélisation, quelle est sa précision, etc. En d’autres termes, ils nous permettent de comprendre quelle est la sémantique portée par chaque géométrie. Les hétérogénéités entre les géométries ne sont donc rien d’autre que des différences de sémantique entre ces dernières.

Nous appelons donc sémantique des XY l’ensemble des caractéristiques d’une géométrie liées à son niveau de détail et à ses spécifications de saisie, qui permettent de comprendre le sens de la géométrie et dont les différences d’une ressource à une autre engendrent des hétérogénéités géométriques. À partir des éléments évoqués dans la partie 1.1.3, ainsi que les hétérogénéités prises en compte par les approches d’appariement de l’état de l’art présentées dans la partie 2.1, nous avons identifié quatre caractéristiques des géométries principales permettant de qualifier une géométrie:  Sa précision planimétrique  Sa modélisation géométrique  Le caractère plus ou moins vague de l’entité géographique qu’elle représente  Sa résolution géométrique Nous proposons un vocabulaire de la sémantique des XY qui permet d’expliciter ces caractéristiques et donc d’exploiter ces connaissances pour paramétrer automatiquement un processus d’interconnexion. Nous nous arrêtons en priorité sur ces quatre caractéristiques pour deux raisons. D’une part, elles sont les plus importantes pour identifier et comprendre les hétérogénéités entre  géométrie. D’autre part, contrairement à d’autres caractéristiques des géométries telles que l’orientation, l’élongation, l’aire, etc. qui sont implicitement présentes dans la géométrie et qui ne sont pas difficiles à extraire à la volée, ces caractéristiques nécessitent soit une très bonne connaissance des processus d’acquisition des données, soit des analyses élaborées pour être connues. Les connaissances à propos des caractéristiques des géométries en pouvant être à l’origine d’hétérogénéités peuvent être perçues comme des métadonnées sur ces géométries.

De nombreuses ontologies sont dédiées à la représentation des métadonnées des données publiées sur le Web, telles que DCE67 (Dublin Core Metadata Element Set), DCAT68 (Data Catalog Vocabulary), VoID69 , PROV-O 70, etc. Ces vocabulaires visent principalement à réduire l’écart entre le fournisseur et l’utilisateur des données. Le vocabulaire DCE fait partie de l’initiative « DCMI Metadata Terms »1qui assure le maintien de nombreux vocabulaires et spécifications liées à la représentation des métadonnées. Le vocabulaire DCE inclut une quinzaine de propriétés utilisées dans la description des ressources, ex. le format, les dates des différents évènements de son cycle de vie (création, modification, etc.), la langue, la source, le titre, etc. DCAT est un vocabulaire recommandé par le W3C pour faciliter l’interopérabilité des catalogues de données sur le Web. Ce vocabulaire réutilise des propriétés d’autres vocabulaires pour définir un modèle de description et de structuration des métadonnées des jeux de données dans des catalogues. VoID est un autre vocabulaire de description des métadonnées qui s’intéresse également aux aspects de découverte et de catalogage des jeux de données.

Il se distingue notamment par les possibilités qu’il offre pour la description des métadonnées sur la structure des données, sur les méthodes d’accès aux données, ainsi que sur les liens avec d’autres jeux de données. Le vocabulaire PROV-O sert à représenter et échanger les métadonnées de provenance des données. Il comprend trois classes principales (entité, activité et agent) ainsi que les propriétés qui les relient. Ce vocabulaire peut, sur cette base, être utilisé directement ou être étendu en vocabulaires spécifiques aux différents domaines d’application. Les vocabulaires génériques pour décrire les métadonnées ne semblent pas suffisants pour répondre à notre besoin de représentation des caractéristiques des géométries. Nous proposons donc un nouveau vocabulaire qui s’inspire plutôt des modèles de métadonnées dédiés aux données géographiques.

Métadonnée sur la précision planimétrique des géométries

État de l’art sur la représentation des métadonnées sur la précision planimétrique La qualité de données dans un sens général est définie par la norme ISO 8402 comme étant « l’ensemble des propriétés et caractéristiques d’un produit ou d’un service qui lui confère l’aptitude à satisfaire des besoins exprimés ou implicites ». Dans le domaine des bases de données géographiques, la précision planimétrique des géométries est un critère de qualité de données qui représente l’écart en planimétrie entre la position d’une géométrie dans une base de données géographiques et celle de l’entité réelle qu’elle représente. Selon la norme ISO 19115-1 la qualité de données géographique est renseignée comme une métadonnée. La norme ISO 19157 définit la qualité des données géographiques comme étant la composition de plusieurs « éléments de qualité », qui réfèrent, comme toutes autres métadonnées, à un domaine d’application (ou portée). Selon cette norme, la précision planimétrique est, entre autres, une spécialisation du concept général d’« élément de qualité ».

Un élément de qualité peut être spécialisé en plusieurs sous-éléments comme: l’exhaustivité, la précision thématique, la cohérence logique, l’utilisabilité, la qualité temporelle ou la précision de localisation des objets. Un élément de qualité est évalué par une « mesure de référence » en suivant «une méthode d’évaluation » qui fournit un « résultat ». Selon l’élément de qualité évalué, le « résultat » peut être : de « conformité », « descriptif » ou « quantitatif ». Dans le cas d’un élément de qualité représentant la précision planimétrique le résultat est quantitatif. Il est représenté par une valeur, le type de cette valeur et son unité de mesure. Pour obtenir ces résultats, les méthodes d’évaluation appliquées ne sont pas forcément directes ; un résultat peut être déduit par agrégation ou une dérivation d’autres résultats, comme il peut être indirectement déduit à partir d’une connaissance externe ou l’expérience que l’utilisateur a du produit. Les connaissances externes peuvent inclure toute information non quantitative, comme la généalogie ou l’objectif des données (décrits dans ISO 19115-1) ou tout autre rapport de qualité sur les données utilisées pour constituer le jeu de données. Les métadonnées doivent préciser, selon la norme ISO 19115-1 leur domaine d’application (scope), qui désigne par un code le niveau auquel la métadonnée est appliquée (jeu de données, collection, feautre type, feature, attribut …). Les spécifications de la directive INSPIRE précisent qu’il faut se référer à la norme ISO 19157 pour rapporter la qualité des données et choisir les mesures utilisées pour son évaluation, y compris la précision planimétrique des géométries des données. Ceci est présent dans tous les documents73 de spécifications des différents thèmes de la directive INSPIRE au niveau des recommandations concernant la qualité des données.

Dans la pratique, dans le cas des jeux de données géographiques, la précision planimétrique est généralement fournie dans des métadonnées séparées, dans des documents descriptifs de chaque jeu de données. Elle peut également être mentionnée sous forme d’un attribut au niveau de chaque instance des données. Les figures 3.2, 3.3 et 3.4 sont des exemples des précisions planimétriques renseignées dans les spécifications de contenu des bases de données géographique vectorielles produites par l’IGN : BD TOPO®, BD CARTO® et BD ADRESSE®.

Représentation de la précision planimétrique dans le vocabulaire de la sémantique des XY

Notre vocabulaire doit permettre d’associer à chaque géométrie un élément de précision planimétrique qui est décrit par une méthode et un résultat d’évaluation. La méthode d’évaluation permet de préciser s’il s’agit d’une dérivation à partir d’un autre élément de qualité ou d’une évaluation à partir des données. C’est ce deuxième cas qui le plus souvent employé. Une évaluation à partir des données peut être réalisée directement par inspection complète ou par analyse d’un échantillon des données, ou indirectement à partir d’une connaissance sur la généalogie des données. Le résultat d’évaluation est décrit par sa valeur numérique ainsi que son unité de mesure. Bien que l’ontologie daQ permette d’exprimer le résultat d’évaluation de la précision planimétrique, elle ne fournit pas de moyen pour indiquer le type de méthode d’évaluation utilisé. Or, nous considérons cette information comme primordial à l’interprétation de la valeur de précision planimétrique. L’ontologie PROV-O permet de décrire des métadonnées de généalogie.

Elle peut être utile pour présenter la source de déduction d’une évaluation indirecte, mais ne suffit pas pour exprimer le résultat d’évaluation. Nous avons donc décidé de nous appuyer principalement sur le noyau de la norme ISO 19157 pour la représentation de la précision planimétrique (voir Figure 3.5). L’ontologie dq proposée par (Cox, 2012) pour la représentation des éléments de cette norme ISO 19157 demeure compliquée à utiliser directement pour le simple cas de la représentation de la précision planimétrique au niveau de chaque géométrie : il n’existe pas de propriété qui permet d’associer à chaque géométrie sa précision planimétrique. Nous proposons donc notre propre vocabulaire qui s’appuie sur la norme ISO 19157 tout en faisant référence aux éléments correspondants (classes et propriétés) dans dq, à l’aide de propriétés owl:equivalentClass. Pour les unités de mesures, nous réalisons directement le vocabulaire QUDT.

La comparaison de références spatialesTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *