L’interprétation des images est une tâche complexe, autant par la diversité des moyens de représenter une image et des approches associées permettant de réaliser son interprétation, que par la subjectivité du résultat attendu. L’objectif de l’interprétation est de pouvoir reconnaître les objets qui composent une scène et leurs relations. L’utilisation d’un modèle de la connaissance se heurte au problème du saut sémantique, c’est-à-dire la différence entre la description d’un objet par une connaissance générique et exprimée en langage naturel d’une part, et sa représentation numérique d’autre part. Dans notre cas, il s’agit de la difficulté de faire le lien entre la connaissance générique et les parties de l’image qui lui correspondent. Cependant, décrire les objets qui composent une scène et leurs relations est une manière naturelle de décrire une scène et qui est cohérente avec la manière dont le système visuel explore une scène. Les modèles représentant une image comme un ensemble d’objets structurés sont donc bien adaptés à cette tâche. Parmi ces modèles, la théorie des graphes fournit un cadre permettant de représenter plusieurs niveaux de connaissance, objet ou région et connaissance structurelle. Une manière naturelle de décrire les relations entre les différents objets qui composent une scène est de décrire leurs positions relatives, par exemple « l’objet A est à droite de l’objet B ». De plus les relations spatiales, grâce à leur imprécision intrinsèque, sont appropriées pour modéliser l’imprécision de ces relations. Il existe différentes manières de prendre en compte l’information spatiale, que ce soit pour la segmentation ou pour la reconnaissance des structures. Nos travaux se placent dans le cadre de l’interprétation d’une scène guidée par un modèle décrivant l’agencement spatial des objets composant la scène. Nous proposons d’exploiter au mieux la connaissance spatiale d’une scène à interpréter, mais aussi la connaissance extraite de l’image elle-même dès qu’elle est disponible. La problématique de ces travaux est principalement la suivante : comment explorer l’image de la manière la plus propice à son interprétation. Si l’exploration correspond à une séquence de segmentation, alors nous souhaitons connaître la meilleure séquence de segmentation possible d’une image en fonction de l’information disponible.
En fonction du type de connaissance disponible à propos d’une scène (experte, extraite automatiquement, . . .), le modèle spatial généré va permettre un raisonnement spatial plus ou moins puissant. La constitution d’un modèle de l’agencement spatial d’une scène n’est pas l’objet de nos travaux, même si cette question est abordée lors de la présentation du modèle de la connaissance.
Le domaine d’application nous permettant d’illustrer nos contributions est celui de l’imagerie cérébrale. La segmentation et la reconnaissance des structures sous corticales du cerveau représente une tâche complexe d’interprétation en raison de la radiométrie non discriminante des structures, de la forme complexe que peuvent prendre ces structures et de la grande variabilité inter-patients. Pour ces raisons, la segmentation des images cérébrales est le plus souvent guidée par un modèle. De plus, l’agencement spatial des structures cérébrales est stable (dans le cas sain). L’information spatiale est donc pertinente dans ce cas. Il existe de nombreuses représentations structurelles de l’anatomie cérébrale, l’ontologie de la FMA par exemple (Rosse et Mejino (2007)), ainsi que des méthodes de segmentation des structures sous-corticales utilisant ce type de représentation. Nous proposons des approches dans le cadre de cette application, pour déduire de la représentation structurelle et de l’image à interpréter la séquence de segmentation.
Des pathologies peuvent intervenir dans les images cérébrales, en particulier, nous nous intéressons au cas des tumeurs cérébrales. Il existe de nombreux types de tumeurs, avec des comportements spatiaux différents (Khotanlou (2008)). Parmi les comportements spatiaux classiques, les tumeurs peuvent déplacer, déformer, voire détruire des structures cérébrales. Les relations spatiales sont également affectées. Il est donc nécessaire d’adapter le raisonnement spatial pour être capable de gérer ces cas pathologiques.
L’interprétation des images correspond à l’analyse d’une image ou d’une scène permettant de décrire les objets composant la scène et leurs relations, c’est-à-dire extraire la sémantique de l’image, afin de la comprendre. Cette problématique est un problème de perception de l’environnement par des capteurs (« visual perception ») qui peut être divisé en trois catégories (Trivedi et Rosenfeld (1989)) :
La neurophysiologie ou l’étude des mécanismes biologiques de la vision. L’humain est capable d’interpréter une scène souvent sans difficultés et de manière automatique. De nombreux travaux cherchent à modéliser la vision humaine et les différents mécanismes permettant l’exploration d’une scène.
La psychologie perceptive qui consiste à comprendre les aspects psychologiques de la perception .
La vision artificielle c’est-à-dire les mécanismes permettant de faire comprendre à une machine ce qu’elle « voit » au travers de capteurs. Nos travaux se situent dans cette dernière catégorie.
La première théorie de la vision numérique a été proposée dans Marr (1982) et propose une architecture en trois niveaux que tout système de traitement de l’information doit respecter pour demeurer cohérent. Ces travaux vont inspirer la plupart des systèmes de traitement de l’information par la suite. Les différents niveaux proposés par sa théorie sont les suivants :
– un niveau abstrait : le « quoi » et le « pourquoi » (Marr (1976)), c’est-à-dire que doit-on faire, la théorie, les données en entrée ;
– un niveau de la représentation : le comment, les structures de données, les algorithmes ;
– un niveau de réalisation : l’implantation des algorithmes, reliée au matériel. Marr propose également un système de vision passif et ascendant (sans information a priori) permettant la représentation en trois dimensions et via la stéréoscopie d’images en deux dimensions, et qui repose sur la perception visuelle. Les trois niveaux de ce système sont :
– l’ébauche primitive : où des primitives sont extraites de l’image et regroupées selon des règles proches de la Gestalt (Desolneux et al. (2008)) ;
– l’ébauche 2,5D : qui effectue une carte de profondeur des objets présents dans la scène ;
– la représentation 3D de la scène. Le système de Marr produit une représentation en trois dimensions d’une scène à partir de projection en deux dimensions. Cette représentation est forcément incomplète en l’absence d’information a priori (mis à part les règles de regroupement de l’ébauche primitive), qui empêche toute interprétation sémantique des objets ou de la scène.
Introduction |