La géomatique et la découverte de connaissance
– La donnée : de sa création à la génération de modèles 3D
Comme le souligne Aamodt et Nygard, la donnée, l’information et la connaissance sont trois notions extrêmement dépendantes (Aamodt et al., 1995). Les Figures 1-1 et 2-1 représentent le processus de construction de connaissances, la donnée servant de base à la génération de modèle et à l’élaboration de nouvelle connaissance. La donnée, en géomatique, est la représentation d’une information codée dans un format permettant son traitement par ordinateur (OQLF, 2006). La donnée peut être un nombre, un texte ou un symbole [(Longley et al., 2005) p 11] non interprétés (Davenport, 1997; Van der Spek et al., 1997). Elle est physique et peut donc être stockée. Lorsque nous donnons un sens, une signification, une interprétation spécifique à une donnée, nous la transformons en Information (Davenport, 1997; Van der Spek et Spijkervet, 1997; Choo et al., 2000; 11 Pouliot, 2005). Dès qu’on décode les données dans leur contexte d’utilisation et selon la personne qui les lit, une même donnée peut recevoir diverses interprétations et peut donc conduire à différentes informations (ou bien à aucune information si on n’en comprend ni le caractère, ni le symbole). L’information est un élément de connaissance concernant un phénomène et qui, pris dans un contexte déterminé, a une signification particulière. Le cadre de référence qui détermine cette interprétation est constitué de la somme des connaissances (ensemble de faits, d’événements, de règles d’inférence et d’heuristiques) et des expériences de la personne qui effectue l’interprétation (OQLF, 2006). Figure 2-1 : De la donnée à la connaissance inspiré de (Bellinger et al., 1997; Gahegan et al., 2001) Afin de comprendre comment la donnée pourra nous informer dans les divers systèmes de découverte de connaissance, nous allons montrer la terminologie utilisée pour passer de la réalité à sa représentation numérique tridimensionnelle.
De la réalité aux différents types de données
Le « Robert » définit la réalité comme étant constituée de « choses réelles et de faits réels », c’est à dire qui « existent en fait ». En géomatique, la réalité est constituée de phénomènes et de relations entre ces phénomènes. L’OQLF (2006) définit le phénomène comme la réalité qui se manifeste à la conscience, que ce soit par l’intermédiaire des sens ou non. Le phénomène constitue donc la réalité première. Comme le montre graphiquement la Figure 2-2, le phénomène peut prendre l’apparence d’un objet tangible comme une maison, d’un événement comme un accident, d’un concept comme la notion d’unité de fouille en archéologie ou finalement l’apparence d’un être vivant comme une personne. L’autre Donnée Information Connaissance Élaboration des modèles/patrons Interprétation / contexte Remise en cause Légende : temps 12 élément constitutif de la réalité est la relation entre les phénomènes, comme par exemple : « Monsieur Jalon possède une maison ». Figure 2-2 : La caractérisation d’une réalité inspirée de (Bédard, 2003a) Afin de comprendre et de représenter numériquement cette réalité, nous allons chercher à la modéliser. La modélisation est une description dans un langage compréhensible à la fois par l’humain et par l’ordinateur de la forme, du mouvement et des caractéristiques d’un objet ou d’un ensemble d’objets qui crée un modèle, c’est-à-dire une représentation simplifiée de l’objet (OQLF, 2006). Cependant, un modèle reste une abstraction spécifique de la réalité et il doit faire ressortir de manière explicite les caractéristiques de ce qu’il est sensé modéliser. C’est en effet sur le modèle que l’analyse se fait d’où un contrôle permanent de la validité du modèle comme étant une représentation conforme à la réalité (Wilsey, 1999). Étant donnée que les systèmes d’analyses visés par notre recherche sont principalement constitués de base de données, il n’est pas inutile de définir la démarche de modélisation ; démarche nécessaire pour passer d’une réalité à sa représentation : « Une méthode de modélisation est un ensemble de procédures et de règles à suivre permettant de capter la Phénomènes Relations entre phénomènes Objet tangible (ex. maison) Événement (ex. accident) Être vivant (ex. personne) Concept (ex. Unité de fouille) Réalité Est constituée de Peuvent être des 13 réalité du client et de concevoir une base de données correspondant aux besoins de cette réalité » (Bédard, 2003a). Au niveau conceptuel, c’est à dire indépendamment de la technologie utilisée, les modèles1 sont constitués de classes d’objets – ou d’entités suivant la méthode utilisée – décrites par des attributs, des opérations, des associations entre les classes d’objets, des agrégations de classes d’objets simples en classes d’objets complexes et des généralisations ou spécialisations d’une super-classe en ses sous-classes. Les phénomènes sont ainsi modélisés en classes d’objets. Cet objet est l’élément de base qui sert à construire des logiciels. Il est la matérialisation de la classe dont il reproduit les caractéristiques (OQLF, 2006).2 Les relations entre phénomènes, quant à elles, sont modélisées par des associations qui peuvent être de surcroît spatiales et/ou temporelles et décrites dans les classes d’objets (cf. Figure 2-3). Figure 2-3 : La modélisation de la réalité en classe d’objets inspiré de (Bédard, 2003a) Ainsi, les classes d’objets (ou entités), éléments essentiels d’un modèle conceptuel de données (MCD), sont décrites par des attributs et des opérations (cf. Figure 2-4). L’attribut est une « composante d’un modèle conceptuel de données, qui représente une caractéristique propre à un phénomène ou une caractéristique propre à une relation entre phénomènes » (OQLF, 2006). On y retrouve les attributs descriptifs comme le nombre d’étages d’un bâtiment, les attributs temporels comme la date de construction du même bâtiment, les attributs géométriques comme la position en (x,y,z) et les attributs graphiques comme la couleur. La donnée se retrouve ainsi stockée dans les valeurs d’attribut.
L’objet tridimensionnel
L’objet est un « phénomène quelconque du monde extérieur ou intérieur qu’un homme observe (ou peut observer) à un instant déterminé » (OQLF, 2006). Il peut être décrit selon diverses dimensions : géométriques (en lien avec les données géométriques) ou descriptives (en lien avec les données descriptives). La notion de dimension est utilisée dans différents domaines (dessin technique, économie, électricité, imprimerie, mathématique, philosophie, informatique, physique, statistique…). Cependant, elle n’est pas clairement définie (Brisebois, 2003; Lachance, 2005; Larrivée et al., 2006; Pouliot et al., 2006) Face à cette multitude de définitions, nous utiliserons deux notions de dimensions liées à l’objet multidimensionnel (espace) pour définir l’objet 3D tel que nous l’utiliserons pour ce mémoire. Ce sont la dimension géométrique d’objet en lui-même et la dimension de l’univers dans lequel l’objet est positionné. La dimension géométrique de l’objet est exprimée en fonction du nombre de directions ou de lignes suivant lesquelles le corps s’étend (Brisebois, 2003). D’après (Bédard et al., 2002), l’objet 3D (encadré pointillé dans le Tableau 2-1) sera associé à une dimension géométrique 3D, c’est à dire un objet volumique. Tableau 2-1 : La dimension géométrique des objets adaptée de Brisebois 2003 Exemples d’objets Géométrie 3D Géométrie 2D Géométrie 1D Géométrie 0D 16 La dimension de l’univers dans lequel évolue l’objet est exprimée en fonction du nombre d’axes, spatiale et/ou temporelle, nécessaire et suffisant pour positionner l’objet. D’après (Kennedy, 2004), l’objet 3D (encadré pointillé dans le Figure 2-5) sera associé à une dimension de l’univers 3D, c’est à dire à trois axes spatiaux et où les objets sont positionnés dans le volume infini et imaginaire, formé par les 3 axes. Dépendant de la littérature étudiée, un objet peut donc être considéré comme 3D (Brisebois, 2003; Lachance, 2005; Pouliot, 2005) si la géométrie de l’objet est une géométrie 3D (Bédard et al., 2002) ou si l’univers dans lequel évolue l’objet est un univers 3D (Kennedy, 2004) (Figure 2-5) ou encore si l’enveloppe des objets, c’est-à-dire le rectangle englobant de l’objet, est en 3D (Bentley, 2002) (cf. Figure 2-6). Figure 2-6 : Objet 3D défini par son rectangle englobant adapté de (Brisebois, 2003) Pour le présent mémoire, nous associerons le terme d’objet 3D à tout objet à trois dimensions géométriques (longueur, largeur et hauteur) et positionné dans un univers 3D (x, y, z) et référencés temporellement (encadré double sur la Figure 2-5). En effet, en archéologie, lors des opérations de fouille, les seules données spatiales sont enregistrées en regard d’ « unités de fouille » (UF) qui se trouvent être des volumes (tridimensionnels) de terre archéologique qui sont retirés de différents endroits du site (univers 3D).
La modélisation géométrique 3D
Les Figure 2-2, Figure 2-3 et Figure 2-4 ont montré le cheminement qu’il faudrait suivre pour reconstituer la réalité. À partir des données, la forme, le mouvement et les caractéristiques des objets sont reconstitués sous forme de modèle. Étant donné que nos travaux chercheront à examiner tout particulièrement l’évolution des informations dans un contexte d’analyse spatiale 3D et parce que l’archéologie propose déjà des modèles géométriques diversifiés (Green et al., 2001; Barceló et al., 2003; Nigro et al., 2003; Cattani et al., 2004; Day et al., 2004; Mngumi et al., 2004; Losier et al., 2007) il nous apparaît d’expliquer en quoi consiste la modélisation géométrique tridimensionnelle. La modélisation tridimensionnelle rend compte « des propriétés géométriques de l’objet » (OQLF, 2006) et s’intéresse à la représentation de la géométrie des systèmes étudiés et s’interroge sur la représentation spatiale proprement dite et sur la manière de les représenter (Pouliot, 2005). Cependant, il n’existe pas une seule façon de construire un modèle géométrique [(Longley et al., 2005) : p178]. Cette différence marque l’importance de bien spécifier quel type de modélisation géométrique est utilisé, puisque la modélisation influence de près l’analyse des données et l’affichage de celles-ci (Pouliot, 2005). Beaucoup d’auteurs (De La Losa, 2000; Ramos, 2003; Apel, 2004; Lachance, 2005) ayant déjà fait un état de l’art sur les différentes modélisations, l’intérêt de notre synthèse se porte plutôt sur une classification, même si elle ne se prétend pas exhaustive, qui permettrait de 18 mieux cerner les avantages et les inconvénients de chacune. À ce sujet, nous avons retenu la même classification que celle utilisée par Pouliot qui propose une classification basée sur les approches orientées espace et orientées objets (Pouliot et al., 2006). L’approche orientée espace est utilisée lorsque le partitionnement de l’espace est arbitraire (par exemple des pixels ou des triangles) (Pouliot et al., 2006). Cette approche est souvent associée à la structure matricielle ou raster. D’après Longley, le modèle de données raster utilise des cellules (par exemple des pixels en 2D ou voxel en 3D) pour représenter les objets du monde réel [(Longley et al., 2005) : p181]. Il existe plusieurs manières de découper l’espace. La première, le découpage régulier, se fait sous la forme de cubes élémentaires fixes ou variables : le voxel. Ce découpage permet une représentation non ambiguë, unique et simple de la réalité (Pouliot, 2005; Thalmann, 2006). La précision, la granularité du modèle dépend directement de la résolution du pixel/voxel ou du nombre de niveaux hiérarchiques de l’octree. Cependant, cette précision se fait au détriment d’une taille de plus en plus conséquente du fichier de stockage. La deuxième manière, le découpage irrégulier, permet d’avoir une meilleure résolution avec un meilleur stockage. Le meilleur rapport résolution/stockage est principalement dû au fait que le découpage peut être lié à l’orientation de certains objets (modèles Binary Space Partitioning) ou en fonction de la densité des points échantillonnés (modèles en décomposition en cellules). L’approche orientée objet est utilisée lorsque le partitionnement de l’espace est fonctionnel (par exemple la frontière d’une route, d’un bâtiment) (Pouliot et al., 2006). Une prémisse importante de cette approche consiste à connaître les frontières de l’objet. Il faut donc avoir ces frontières et être capable de les mesurer et de les estimer. Cette approche est souvent associée à la structure vectorielle. Les objets sont construits à partir des coordonnées des points et des arrêtes décrivant leurs position et forme. Il existe plusieurs approches pour représenter de façon discrète l’enveloppe des objets 3D ou leurs parties. L’approche basée sur la frontière est caractérisée par les modèles « fils de fer » (ou wireframe en anglais) et les modèles B-rep (Boundary Representation) La modélisation fil de fer est la plus simple des modélisations 3D [(Bertoline et al., 2002) : p 304 ] car elle ne contient que les informations sur les points (vertex) et les lignes /courbes (edge) [(Foley, 19 1995) : p560]. Cette simplicité dans la modélisation permettant de stocker les informations géométriques la rend performante mais en fait aussi un modèle ambigu, confus et nonunique [(Saxena et al., 2005) : p258 et 259]. La modélisation B-rep (boundary representation), modélise les faces des objets (orientées ou non) pour représenter les solides. [(Bertoline et Wiebe, 2002) : p314] sans pour autant avoir une idée sur ses propriétés volumiques (De La Losa, 2000). L’approche basée sur des formes paramétrables est caractérisée par les modèles Constructive Solid Geometry (plus communément appelés modèles CSG), les modèles par primitive Instancing et les modèles par balayage. La construction des objets avec la méthode CSG consiste à l’élaboration d’un modèle géométrique complexe à partir d’un jeu de primitives simples (Skibniewski et al., 1997) comme des cubes, des sphères, des cylindres, des cônes ou des tores [(Gasparini, 2005) : p63] qui sont emboités après translation, rotation et facteurs d’échelle puis auxquels on effectue des unions, des intersections et/ou des différences (De La Losa, 2000). La primitive instancing est une approche indépendante de la représentation des objets solides. Cette modélisation est basée sur la notion de famille d’objets ou chaque membre de la famille est distingué par des paramètres [(Foley, 1995) : p539](Skibniewski et Kunigahalli, 1997) et ne se chevauche pas entre eux (Lattuada, 2005). Finalement, la modélisation par balayage consiste à représenter un objet en « balayant », une aire définie ou un volume, le long d’une trajectoire définie (Lattuada, 2005).