Représentation des images basées sur une approche par régions
Potentiel de l’approche par régions
L’interét d’une telle approche est multiple. Outre le fait que le partitionnement de l’image en regions tient d éj à compte de l’information spatiale, et permet de manipuler ` des regions homog énes, elle r èduit aussi de mani ére consid èrable la taille des donn ées. En outre, suivant la qualite du partitionnement, elle peut faire émerger des r égions saillantes ou des objets de l’image. Mais surtout, l’interét de cette approche, en ce qui nous concerne, est que, pr esent ée sous une certaine forme, elle permet l’utilisation des methodes de traitement des donn ées ée sur une approche par r Repr ésentation des images bas cm de r èsolution, appartenant à la classe des ` banlieues résidentielles. C’est une classe de melange, constitu ée principalement de maisons, d’espaces verts, de terrains nus et de piscines. textuelles exprimees dans une langue. Nous nous int éressons ici aux notions de “compo- sitionnalite s émantique” et de “repr ésentation en sacs-de-mots” du langage textuel.
Principe de compositionnalité sémantique
Nous souhaitons exploiter le “principe de compositionnalite s émantique” [Pelletier, 1994], et l’appliquer aux images satellitaires. Tres utilis è en traitement automatique des langues (TAL), le “principe de compositionnalite s émantique”, encore appel é “principe de Frege”, specifie que la signification d’une expression complexe est fonction de la si- gnification de ses parties et de leurs relations syntaxiques. En effet, le principe de compositionnalite pr ésente une d émarche tr és utilis èe pour le traitement automatique de la semantique. Il permet de formuler un ensemble de r égles de combinaison pour d èriver le sens d’un enonc éà partir de celui de ses composantes. Prenons l’exemple de la phrase ` suivante, present ée dans [Bouillon & Vandooren, 1998] : “Le petit chat que Marie a achet é s’est endormi en ronronnant”. Le sens de cette phrase contient bien, entre autres, les sens de petit, chat, acheté, endormi, ronronnant, et les liens entre eux. Ainsi, de meme que la compr ehension d’une phrase n écessite de comprendre les mots et la syntaxe entre ces mots, nous nous proposons d’exploiter l’information spatiale existant entre les regions d’une image satellitaire, afin d’analyser et d écrire son contenu semantique. Cependant, l’application de ce principe n’est pas toujours simple, car il ne se verifie pas pour toutes les expressions de la langue naturelle (expressions idiomatiques par exemple). De plus, le principe de compositionnalite est compliqu é par le fait que les re- lations entre les structures syntaxique et semantique d’un énonc é ne sont pas toujours biunivoques : a une seule structure syntaxique, peut correspondre plus d’une repr èsenta- tion semantique et vice versa. En ce qui concerne les images, et en particulier les images satellitaires, il nous paraıt plus naturel de supposer qu’a chaque unit è syntaxique, cor- respond une regle d’interpr ètation s émantique unique, par exemple, une maison et une piscine correspondent a une ` villa : c’est l’hypothese forte du principe de compositionna-lite ( rule-to-rule hypothesis). Par consequent, nous ne tiendrons compte que du sens propre des images.
Approche par sacs-de-mots
Nous proposons par ailleurs, d’utiliser les techniques basees sur une repr ésentation dite en “sacs-de-mots” (bags-of-words) pour classifier les images satellitaires, et en particulier identifier les classes complexes telles que celles de melange. Le mod éle par sac-de- ` mots est devenu particulierement populaire durant ces derni ères ann èes, en raison de la qualite des r ésultats qu’il permet d’obtenir dans le domaine de la fouille de donn ées dans les textes. Ce type de representation, tr és utilis èe en analyse de texte, suppose que l’ordre des mots dans un document peut etre n eglig é. Cela consiste à dècrire chaque document àu moyen d’un histogramme des occurrences de chaque mot du vocabulaire. L’histogramme, plus ou moins ponderé par la fr équence d’apparition des mots dans toute la langue, est ensuite utilise comme vecteur de forme par un algorithme de classification, utilisant des modeles g ènératifs ou la classification par recherche de fonctions discrimi- nantes. Cette approche a eté adapt ée pour l’annotation automatique et la recherche d’images multimedia par le contenu s émantique [Monay & Gatica-Perez, 2003; Fei-Fei & Perona, 2005; Lazebnik et al., 2006; Larlus & Jurie, 2008]. Nous nous interessons ici, à l’exploitation d’une telle approche pour l’annotation de ` grandes images satellitaires. L’utilisation des techniques textuelles pour les images, que ce soit pour l’exploitation du principe de compositionnalite s émantique ou de l’approche par sacs-de-mots, necessite que l’image soit d écrite sous forme de “mots visuels”, par analogie au texte. Ce- pendant, les images n’ont pas de vocabulaire a priori, le “vocabulaire visuel” doit donc etre construit pour r epondre à des attentes particuli ères. La section suivante est consacr èeà la d èfinition des mots visuels, et à la construction du vocabulaire. ` 5.2 Codage de l’image : les mots visuels 5.2.1 Le vocabulaire visuel Le vocabulaire visuel est defini par analogie avec le vocabulaire de mots textuels, dans le but de pouvoir appliquer les techniques statistiques de textes aux images. Aucun vocabulaire visuel n’existant de maniere explicite, il faut donc le construire de mani ère ` a ce qu’il repr èsente au mieux les donn ées. Les mots visuels sont obtenus par quantifi- cation vectorielle de descripteurs locaux extraits des images : il s’agit d’une transformation de l’espace de description vers un espace discret d’etiquettes. La représentation de l’image par des mots visuels peut donc etre vue comme une sorte de codage de l’image. De maniere gènérale, un codage permet de passer d’une repr ésentation des donn ées à` une autre. En compression des donnees (th éorie de l’information), l’information à com- ` presser est vue comme la sortie d’une source de symboles qui produit des textes finis selon certaines regles et le but est de minimiser la taille moyenne des textes obtenus en reduisant l’information répétitive, c’est-a-dire la redondance. En effet, la compression des donnees permet de réduire l’espace nécessaire à la reprèsentation d’une certaine quantité d’information. Par analogie, le codage de l’image consiste a transformer l’image en une ` representation plus concise et facilement exploitable par l’utilisateur, tout en pr éservant son contenu informationnel.