LIER ET VISUALISER DES RESSOURCES GEOREFERENCE ES SUR LE WEB DE DONNEES

LIER ET VISUALISER DES RESSOURCES GEOREFERENCE ES SUR LE WEB DE DONNEES

Web sémantique et Web de données

Le Web sémantique fournit une plateforme commune qui permet aux données d’être publiées, partagées et réutilisées entre différentes applications, entreprises et communautés. C’est un effort collaboratif mené par le W3C avec la participation de nombreux partenaires de la recherche et de l’industrie (W3C, 2001). Le Web de données représente une concrétisation de la bonne utilisation des technologies qui fondent le Web sémantique. En effet, dans la lignée de son modèle du WWW (World Wide Web), Tim Berners-Lee (Berners-Lee, 2006) propose un modèle de données liées (Linked Data) qui repose sur les mêmes principes de base:  Utiliser les URIs (Uniform Resource Identifier) pour nommer les choses, plus précisément des URIs HTTP qui permettent de consulter ces noms. 

Quand un URI est consulté, renvoyer des données (structurées) sur ce qu’il représente.  Inclure dans ces données des liens vers d’autres URIs pour permettre de découvrir plus de données. Ce modèle de donnés liée a permis d’étendre le Web des « documents » (Berners-Lee, 1989) en un Web de « données ». Tim Berners-Lee (Berners-Lee, 2006) propose également un ensemble de bonnes pratiques, qui repose sur un schéma de déploiement à 5 étoiles, agissant comme un système de notation qui vise à encourager les fournisseurs des données à adopter ce modèle des dans le but de créer un Web de données ouvertes et liées (Linked Open Data). Selon ce schéma, des données publiées sur le Web obtiennent une étoile si elles sont publiées sous une licence ouverte. Cela peut être dans n’importe quel format de fichier lisible (ex. des fichiers PDF).

Une deuxième étoile leur est attribuée si elles sont dans un format structuré quelconque. Ceci permet aux données d’être traitées, transformées ou utilisées dans des calculs (ex. des fichiers EXCEL). La troisième étoile est obtenue si le format structuré utilisé pour représenter les données est non propriétaire. Ceci garantit une indépendance vis à vis des logiciels propriétaires pour traiter les données (ex. fichier CSV). Les données obtiennent une quatrième étoile si elles sont publiées dans les formats standards du Web sémantique, c.-à-d. utiliser les URIs pour identifier les choses et le modèle RDF (Resource Description Framework) pour structurer les données. Des données publiées sont considérées comme ayant cinq étoiles si, en plus de respecter les quatre premières conditions, elles sont liées à d’autres sources de données du Web.

En plus de faciliter la découverte de données, les liens créés vers d’autres sources de données apportent une plus-value aux données publiées et rajoutent plus de possibilités d’applications du point de vue de l’utilisateur de ces données. Ce schéma d’implémentation concrétise l’utilisation des technologies du Web sémantique dans la création d’un espace global de sources de données interconnectées nommé le nuage des données ouvertes liées (Linked open data cloud).

La place centrale des ressources géoréférencées sur le Web de données

De nombreuses ressources du Web de données sont associées à une localisation dans l’espace, ou peuvent l’être du fait de leur nature. Ces ressources peuvent être des entités géographiques issues de base de données géographiques fournies par un producteur traditionnel de données, tel que une agence cartographique nationale (ex. données de L’Ordnance Survey7 , données de l’IGN Espagne8 , données l’IGN France9 ). Ces ressources peuvent également être dérivées de données issues de plateformes de saisie participative. C’est le cas par exemple de la source LinkedGeoData10 issue de la plateforme des données géographiques participative OpenStreetMap, ou les sources DBpedia11 et Yago12 issues en partie de Wikipedia.

On peut trouver des ressources dotées de localisations dans des sources à origines hybrides. C’est le cas de GeoNames qui intègre des données saisies collaborativement en plus des données fournies par une multitude de producteurs de données géographiques. Figure 1.3 Diagramme du nuage de données ouvertes liées (Linking Open Data cloud diagram) 2017 (Andrejs et al., 2017) Dans le nuage du Web de données, l’information spatiale constitue l’une des catégories de sources de données les plus importantes à la fois en termes de volume, mais également en termes de place au sein du nuage de données. Jusqu’en 2011 on pouvait identifier jusqu’à 31 sources qui contenaient plus que 6 milliards de triplets, ce qui représentait 19.43 % du contenu du nuage des Web de données selon le recensement « State of the LOD Cloud13 ».

Actuellement, le recensement du « Mannheim Linked Data Catalog14 » compte 89 sources de nature géographique. L’importance de l’information géographique peut être égalemnt perçue par la taille de sources de données  géographiques. La source LinkedGeoData comprend 20 milliards de triplets pour décrire plus de 41 millions d’ géographiques15. La source GeoNames, quant à elle, contient plus de 9 millions d’entités géographiques. L’utilisation de références spatiales pour géolocaliser des ressources est répandue également dans les autres catégories de sources de données. Par exemple, DBpedia, l’une des plus grandes sources de données généralistes sur le Web de données, contient dans sa version anglaise16 des descriptions de plusde 1,1 million de ressources de type geo:SpatialThing, schema17:Place, dbo18:Place ou dbo:Location.

Plus de 970000 de ces ressources sont géoréférencées par l’une ou plusieurs des propriétés spatiales suivantes : georss:point, wgs84:lon et wgs84:lat, ou wgs84:geometry. En outre, les interconnexions qui existent entre les sources de données géographiques et les sources de données des autres catégories qu’on peut constater sur le nuage des données ouvertes liées ont tendance à témoigner de l’importance et de la centralité de l’information géographique dans ce graphe de données. 

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *