Visualisation et sciences humaines et
sociales
GEOBS
Ces dernières années, le développement des moyens de diffusion de l’information numérique, l’amélioration des techniques de géolocalisation et l’utilisation accrue 12 des informations environnementales par les politiques publiques ont résulté en une augmentation considérable des flux d’informations géographiques. Pour contrôler ces flux, de nombreux investissements ont été débloqués ces dernières années par les autorités publiques afin de créer des structures spécialisées : les Infrastructures de Données Géographiques (Code de l’environnement – Article L127-1) ou “IDG”. Le projet région Aquitaine GEOBS (http://geobs.cnrs.fr/) avait pour objectif d’analyser d’une part les flux d’informations transitant à travers et entre les IDG (une IDG peut partager ou moissonner les données d’autres IDG) et d’autre part les usages et moyens mis en oeuvre autour de ces plateformes. De manière simplifiée, ces IDG se présentent sous la forme d’un site internet à partir duquel il est possible d’accéder aux différentes informations et études géographiques qui y sont stockées. Ces données sont toutes accompagnées d’une fiche de méta-données renseignant la zone géographique concernée par la donnée (l’emprise), les thèmes de l’étude, les auteurs, etc. Nos travaux ont consisté à utiliser ces méta-données afin de pouvoir modéliser et exploiter différents graphes permettant ainsi à nos collègues géographes d’analyser la qualité et la circulation des informations intra et inter IDG. Plusieurs approches ont donc été réalisées afin de répondre aux questions de nos experts notamment : • Une analyse de la couverture thématique basée sur des calculs de similarité entre les mots clés et descriptifs – Est-ce que les thèmes sont équitablement répartis entre les données ? Est-ce qu’il existe des communautés thématiques majeures ? (Fig. 2.3) • Une analyse de la gouvernance des données basée sur les différentes informations relatives aux acteurs ayant généré les données – Quels sont les acteurs phares dans le milieu ? Y a t-il des groupes d’acteurs en concurrence ou coopération ? • Une analyse de la couverture spatiale utilisant les informations de géolocalisation – Y a t-il une homogénéité des emprises géographiques dans le territoire ? Quel est le degré de superposition des emprises des différentes études ? (Fig. 2.4) Tous les travaux réalisés, y compris les exemples précédents, ont un point commun : chaque analyse est basée sur une métrique spécifique utilisant des attributs différents du même jeu de données. Autrement dit, chaque nouvelle analyse a nécessité d’ajuster la manière de calculer un score pour s’adapter à de nouvelles informations sémantiques issues du même jeu de données. Chaque métrique y détermine un score qui est comparé à une valeur seuil définie par l’utilisateur. Ce 13 seuil permet ainsi de filtrer les données afin de ne conserver que celles considérées représentatives ou intéressantes pour l’utilisateur. Par exemple, pour le graphe de similarité (Fig. 2.3), un lien n’est affiché qu’à partir d’un pourcentage de ressemblance des thèmes traités. Un seuil maximal ne va alors afficher dans le graphe que les arêtes entre des études géographiques identiques ou redondantes alors qu’un seuil nul va générer un graphe avec l’ensemble des liens (dont la sur-abondance n’est ni représentative de l’objectif ni exploitable). Pour le graphe de couverture spatiale (Fig. 2.4), le schéma est identique mais l’analyse étant centrée sur la superposition des surfaces couvertes par les études géographiques, le seuil est défini en fonction de l’intersection spatiale entre deux études. Ainsi, deux études sont liées si elles ont une surface en commun supérieure à la valeur fixée par le seuil. Le projet GEOBS a continué à posteriori du début du projet et a généré plusieurs autres publications, notamment sur la communication et l’usage utilisateur des IDG [28]. Si au moment de ces travaux, nous n’avions pas encore de focus sur les graphes multi-couches, le cadre est pourtant comparable : les différents liens entre les sommets définissent des couches (similarité sémantique, superposition spatiale, gouvernance pour les trois exemples ci-dessus) à partir desquelles il est nécessaire de faire ressortir ce qui est intéressant pour l’utilisateur, comme pour les données du CVCE. De ces travaux, nous avons donc tiré deux enseignements ré-exploités lors de la conception de M-QuBE3 : la nécessité de différencier le traitement pour l’adapter à chaque “couche” sémantique d’un même réseau / jeu de données (liens thématiques, liens d’appartenance, liens spatiaux…) et la nécessité de restreindre la visualisation à ce qui est le plus pertinent pour l’utilisateur, en évaluant et comparant les éléments traités en fonction des objectifs définis.
TETRUM
Les réseaux de traite des humains ne sont pas nouveaux mais ont subi un changement dû aux nouvelles techniques de communication et de partage des informations. Avec le développement d’internet, c’est toutes les pratiques et stratégies criminelles qui ont évolué. Un projet interdisciplinaire (PEPS/IdEx) comprenant juristes, sociologues et informaticiens a donc été mis en place afin d’analyser et comprendre les nouvelles formes, usages et modes opératoires de ces réseaux criminels . . Contrairement aux projets décrits précédemment, les données initiales dont Ce graphe est construit à partir d’un calcul de similarité entre les différentes données de cinq IDG en utilisant les mots-clés, thèmes et descriptifs contenus dans les méta-données. Les sommets représentent les études géographiques et une arête entre deux sommets indique qu’ils ont un score de similarité sémantique supérieur au seuil défini par les experts (arête jaune : similarité minimale, arête rouge : similarité maximale). Les différentes communautés représentent alors des groupements thématiques attribuables aux différentes IDG. Il est aussi possible de voir les thématiques en commun entre deux IDG, permettant ainsi de connaître l’intersection de leurs couvertures sémantiques. Image provenant de . nous avons disposé sont entièrement physiques : un corpus composé de plusieurs dossiers judiciaires d’environ 25000 pages chacun, traitant d’affaires répertoriées par la police et relatives à ces réseaux. De nombreux types de documents y sont consignés : témoignages, écoutes téléphoniques, rapports d’interrogatoire, liste de numéros de téléphones suspects, rapports de police… Une étape essentielle va donc être de numériser ces données afin de pouvoir les visualiser et les exploiter efficacement. Cette étape est difficilement automatisable notamment à cause de l’hétérogénéité des documents et de la mauvaise qualité d’impression des feuilles excluant de scanner automatiquement les dossiers. En plus de cela, beaucoup de document nécessitent une analyse humaine afin de s’assurer de la pertinence voir de la véracité des informations. Un interview, un témoignage ou un interrogatoire peut apporter des informations en contradiction avec d’autres, non fiables ou même volontairement fausses (exemple d’une personne ne donnant 16 pas son vrai nom, numéro de téléphone, etc.). Ces éléments requièrent alors une intervention humaine mais, avec des dizaines de milliers de page à étudier, il est nécessaire d’avoir une aide informatique afin de stocker et interroger efficacement ces données. Pour ce faire, un modèle abstrait de données a été réalisé et utilisé au sein d’une plateforme en ligne permettant de faciliter la consultation et la saisie des informations. Cette plateforme a été réalisée simultanément avec l’exploration des dossiers par nos collègues des sciences humaines et sociales, le modèle abstrait a donc évolué au fur et à mesure des découvertes et a été mis à jour régulièrement en même temps que la plateforme était implémentée. Pour cette raison, nous avions commencé le projet avec une base de données relationnelle, solution classique pour des données basées sur des relations. Les données permettent de définir un réseau multi-couche (Fig. 2.5) où chaque couche est définie par les types de relations : lien financier, lien sexuel, lien de sang, lien de réseau, lien de connaissance, lien de soutien et lien juju (une cérémonie religieuse incitant une personne à se prostituer pour rembourser une dette sous peine de “mauvais sort” [46]). Cependant, cette solution s’est vite révélée problématique au niveau de la conception des requêtes et de leurs performances. Les requêtes extrêmement complexes, en raison du grand nombre de jointures dû aux nombreux types de liens et entités, ainsi que la nécessité de changer ou faire évoluer régulièrement le modèle de données ne conviennent pas à la rigidité du modèle relationnel . C’est pourquoi nous avons, dans le cadre du CVCE, stocké et utilisé ces données à travers, d’une part, une base de donnée graphe (une base de données spécialement conçue pour l’exploitation des réseaux) et, d’autre part, Tulip [3], une infrastructure logicielle spécialisée dans les réseaux afin de bénéficier d’une souplesse dans la conception du modèle (et ainsi permettre son évolution) ainsi qu’une performance accrue pour toute requête nécessaire à l’analyse ou la visualisation. Plus de détails sur le rôle et l’utilisation de ces objets sont disponibles à la section 6.1.