MACO METHODE D’ACQUISITION DES CONNAISSANCES POUR L’EVALUATION DE LA COHERENCE
ACQUISITION DES CONNAISSANCES ISSUES DES SPECIFICATIONS
ANALYSE DES SPECIFICATIONS
Lors de la présentation de la méthode MECO, nous avons fait clairement apparaître la nécessité d’analyser les spécifications pour réaliser les étapes proposées. Les spécifications doivent être étudiées en profondeur pour comprendre ce que contiennent les bases et identifier les règles de saisie des objets qu’elles contiennent. L’analyse des spécifications est une tâche assez fastidieuse car les spécifications sont décrites en langue naturelle, dans des documents volumineux, ce qui rend leur manipulation automatique impossible aujourd’hui. C’est donc aux cogniticiens (ou plus généralement aux experts du domaine) de mener cette étude interactivement.
La démarche d’analyse à entreprendre peut se traduire par une série de questions à se poser qui portent à la fois sur une seule base (analyse individuelle des documents) ou sur les deux bases en même temps (analyse croisée des documents) pour un phénomène à traiter (ex : les routes). Nous listons les principales interrogations ci-dessous. Pour chaque base : • Existe-t-il plusieurs classes représentant le même phénomène ? • Existe-t-il des règles de modélisation et de sélection associées à ces classes ? Quelles sont-elles ? Sont-elles directement formalisables ? • Quelles règles de saisie peut-on contrôler sur les objets des bases ? Que peuton contrôler individuellement (contrôle intra-base) ? Que peut-on contrôler en utilisant conjointement les représentations des deux bases (contrôle interbases) ? • Doit-on enrichir les données ? Quel doit être l’enrichissement (caractères à extraire) ? Comment enrichir (quelles mesures) ?
RECUEIL DES CONNAISSANCES POUR L’ENRICHISSEMENT ET L’APPARIEMENT
Il est possible de donner quelques indications sur la démarche à suivre pour analyser les documents et recueillir l’information nécessaire aux étapes d’enrichissement et d’appariement de MECO (cf. figure 88). Pour l’enrichissement, une analyse individuelle des documents doit d’abord être menée. Il faut identifier la ou les classes dans lequel est défini le phénomène à étudier. Il faut également repérer s’il n’existe pas d’informations sur ces classes dans d’autres parties du document. En principe, les spécifications sont structurées selon les classes définies dans la base. A chaque classe correspond une fiche de spécifications qui lui est propre.
En pratique, il est fréquent de retrouver aussi quelques informations sur une classe dans d’autres classes de la base. Il faut donc généralement parcourir l’ensemble du document pour collecter toutes les règles de saisie des objets concernant une seule classe. Après avoir identifié les informations relatives au phénomène, il faut prendre connaissance des règles de saisie qui le concerne et déterminer ce qui est contrôlable dans les données. En identifiant les spécifications vérifiables (ici, celles qui ne nécessitent pas la mise en correspondance des données), on peut déduire les éléments et les propriétés à extraire des données, ceux qui manquent pour réaliser les contrôles. Il en découle une spécification des outils d’analyse spatiale à développer ou à se procurer.
En plus de l’analyse individuelle des spécifications, l’expert doit mener une analyse croisée des documents. Celle-ci est destinée à établir si les données d’une des bases doivent être enrichies pour contrôler les données de l’autre base (l’enrichissement étant une étape de préparation aux contrôles intra-base et interbases). Il faut donc cette fois identifier les spécifications qui peuvent être vérifiées après la mise en correspondance des données et déterminer les objets et les attributs à extraire qui n’existent dans la base qu’à travers la géométrie. Une spécification des outils d’enrichissement à développer doit être défini à la fin de cette étape.
FORMALISATION DES SPECIFICATIONS
La construction d’un modèle de spécifications relatives aux BDG est un problème de représentation de connaissances. Nous avons vu que les spécifications des BDG, décrites en langue naturelle, pouvaient manquer de structuration et présentaient des imprécisions. Pour que ces spécifications soient plus homogènes, plus facilement comparables et traitables par une machine, nous avons cherché à les représenter de manière plus formelle. Précisons que les sens de spécification et formelle que nous utilisons ici sont différents de ceux utilisés dans le cadre du développement de logiciels [Fougères et Trigano 1999].
Pour ce contexte, une spécification formelle est « l’expression, dans un langage formel et à un certain niveau d’abstraction, d’une série de propriétés qu’un système devrait satisfaire » [Van Lamsweerde 2000]. En ce qui nous concerne, les propriétés décrites dans les spécifications doivent être respectées par le contenu du système (les objets dans la BDG) mais pas par le système lui-même. Notre objectif est de définir une meilleure structuration de documents.
Nous souhaitons à terme décrire les informations exprimées en texte libre dans un langage manipulable par une machine et les associer aux schémas conceptuels des bases de données. On se rapproche davantage du problème posé par [Zweigenbaum 1999] concernant la représentation de l’information médicale : quel modèle adopter pour pourvoir traiter l’information avec une machine ? Le langage que nous avons adopté pour présenter le modèle est UML23. Nous n’exprimons pas les spécifications en adoptant une notation formelle tel que Z [Lightfoot 2001], ce qui est préconisé dans les méthodes de développement de logiciels. La démarche adoptée pour élaborer ce modèle est une démarche dirigée par les ressources (les spécifications). Nous avons étudié un ensemble de documents provenant essentiellement de l’IGN et identifié progressivement des concepts communs.