PROPOSITION D’UN SYSTEME D’ANALYSE
ET D’INTERPRETATION D’IMAGES
La détection de la saillance
La détection de la saillance visuelle a suscité l’intérêt de nombreux chercheurs en vision artificielle. La façon dont le cerveau humain sélectionne les informations visuelles importantes est liée aux mécanismes d’attention du cerveau qui guident éventuellement les mouvements des yeux pour placer la fovéa, qui est une zone au centre de la rétine, sur les parties les plus saillantes et significatives de la scène perçue.Selon des études réalisées en sciences cognitives, l’allocation de l’attention visuelle est réalisée selon deux mécanismes. Un mécanisme ascendant (bottom-up) qui autorise le traitement précoce de certaines informations permettant ainsi la réalisation de tâches complexes sans solliciter les ressources attentionnelles. Un mécanisme descendant (top-down) qui nécessite un effort cognitif important et l’allocation de la quasitotalité des ressources attentionnelles. Ce mécanisme est déployé lorsqu’une tâche particulière doit être effectuée, par exemple reconnaître une personne sur une photo, chercher un objet bien précis. Toutefois, dans la réalité, les mécanismes ascendant et descendant ne sont pas considérés comme des processus indépendants, mais sont plutôt combinés pour diriger l’attention visuelle. Inspiré par la théorie de l’intégration des caractéristiques (FIT) et le modèle de recherche guidée, les premiers modèles d’attention visuelle ont vu le jour. En correspondance avec les mécanismes attentionnels ascendants et descendants, les modèles d’attention visuelle reposent soit sur des facteurs ascendants ou descendants. Toutefois, la complexité des interactions existantes entre ces deux mécanismes rend la modélisation de l’attention visuelle dans son ensemble une tâche difficile. Une voie réaliste est de modéliser l’attention visuelle ascendante, à travers des modèles de saillance appelés aussi des modèles pré-attentive, qui sont liés à des processus automatiques. La détection de la saillance a déjà connu de nombreux domaines d’application comme la vidéo surveillance, la compression, la manipulation d’image, le rognage automatique d’image, la détection d’objet, la reconnaissance d’objet, l’extraction basée sur le contenu d’images/vidéos. Néanmoins, la détection de la saillance reste un sujet de recherche important et complexe à la fois. Cette difficulté est liée au fait qu’il tente d’accomplir la même tâche que le système visuel humain, un système complexe et difficile à reproduire. Le système visuel humain utilise un certain nombre d’indices visuels, tels que le contraste d’intensité, le contraste de couleur et l’emplacement spatial, combinés éventuellement à des connaissances préalables, afin de détecter et identifier des objets d’intérêts. La détection de la saillance peut modéliser de nombreuses caractéristiques semblables mais à des coûts de temps et de la complexité. Un autre aspect du défi de la détection de la saillance réside dans le fait qu’un objet peut être considéré comme saillant dans une image et par conséquent appartenir à son premier plan, comme il peut être considéré non saillant dans une autre image, et par conséquent appartenir à son arrière plan. Dans cette thèse, nous nous intéressons à la détection de la saillance qui considère principalement les facteurs ascendants c’est à dire l’influence des caractéristiques visuelles de bas niveau. Ce type de saillance dépend des données et des stimuli. Ainsi aucune connaissance n’est spécifiée au préalable. Au cours de ces dernières années, ce type de détection de saillance est devenu un domaine de recherche très actif dans la communauté de la vision par ordinateur. Plusieurs taxonomies visant à catégoriser les modèles de saillance visuelle ont été proposé dans la littérature. Elles considèrent généralement que la définition de la saillance visuelle réside dans l’unicité visuelle, l’anormalité, la rareté, la maximisation de l’autoinformation, la surprise, ou quelque chose de rare. De ce fait, notre premier objectif est d’étudier ces différentes taxonomies, leurs points communs et leur différences. Définissent t-elles de la même manière les catégories des modèles de saillance ? Qu’apporte une nouvelle catégorisation par rapport aux taxonomies précédentes? Indépendamment de la catégorie d’appartenance d’un modèle de saillance, ce dernier est censé générer une carte de saillance qui indique les zones les plus saillantes se 3 Introduction générale trouvant dans une image en entrée. Pour cela, différentes caractéristiques visuelles sont utilisées pour calculer des indices de saillance. Ainsi, notre deuxième objectif est d’étudier les différents aspects qui peuvent influencer sur la qualité d’une carte de saillance.
De l’œil aux voies visuelles
Le système visuel humain se compose de l’ensemble des deux yeux ainsi que des régions du cerveau qui participent au traitement des informations visuelles.
L’œil
L’ œil ou le globe oculaire est l’organe de la vision , il nous permet de capter la lumière de notre environnement et de la convertir en message nerveux, lequel est transmis au cerveau qui l’analyse. Il est de faible volume 6.5cm3 , pèse 7 grammes, et possède la forme d’une sphère d’environ 24 mm de diamètre, complétée vers l’avant par une autre demi sphère de 8 mm de rayon, la cornée. FIGURE 1.1 – Représentation de l’œil humain 1 Le cristallin est la lentille de l’œil dont les fines modifications de forme se produisent, de manière automatique, en regardant un objet, afin de régler la distance de focalisation pour conserver l’image focalisée sur la rétine . Cela fait référence au phénomène d’accommodation qui est due à la contraction ou au relâchement des muscles ciliaires qui entourent la lentille, et elle joue un rôle important dans la vision des objets à toutes les distances[FERWERDA, 1998].
La rétine
La rétine est l’organe le plus important de l’œil. Elle mesure environ 0,5 mm d’épaisseur, et recouvre les trois quarts de l’intérieur du globe oculaire. La rétine appartient au système nerveux central, les autres parties de l’œil assurent des fonctions sensorielles dont le rôle est de focaliser les images sur la rétine. Cette dernière est composée d’un ensemble organisé de cellules nerveuses superposées, réparties verticalement et horizontalement, au travers lesquelles la lumière venant de l’extérieur est projetée 2 . Elle est constituée d’environ 150 millions de cellules nerveuses pouvant être décomposées en trois couches : La couche plexiforme externe(Outer Plexiform Layer, OPL), La couche plexiforme interne(Inner Plexiform Layer, IPL) et la couche ganglionnaire(Ganglionic Layer, GL) comme l’illustre la figure 1.2. La couche plexiforme externe La couche plexiforme externe(Outer Plexiform Layer ou OPL) se compose de cellules photo-réceptrices, horizontales et bipolaires. Elle capture la lumière incidente(les photons) et la transforme en un signal électrique [FERWERDA, 1998]. FIGURE 1.2 – Représentation de la coupe d’une rétine. Les photo-récepteurs. La couche des cellules photo-récepteurs est la couche la plus éloignée du cristallin. Les photo-récepteurs sont sensibles à la lumière. Seules ces cellules sont en mesure de transformer l’information lumineuse en signaux nerveux. En d’autre terme, c’est dans ces neurones sensoriels que nait le message nerveux. Il existe deux types de photo-récepteur, les cônes et les bâtonnets. — Les cônes. Ils représentent seulement 5 % des photo-récepteurs(5 millions) et sont concentrés au niveau de la fovéa, une zone au centre de la rétine qui couvre un disque d’environ 1.5 mm de diamètre de la surface de la rétine. Ils permettent la vision des couleurs ainsi que la perception des images détaillées. — Les bâtonnets. Ils représentent 95 % des photo-récepteurs (120 millions)et peuvent réagir à des éclairements très faibles et sont donc utilisés pour distinguer différents niveaux de clarté. Ils ne sont pas dans la fovéa, où se situent les cônes, mais ils sont répartis dans la rétine. Ils perçoivent mal les couleurs car ils ont peu de liaisons directes avec le nerf optique, contrairement aux cônes. Les photo-récepteurs sont répartis de manière hétérogène, et deux zones peuvent être distinguées. — La rétine centrale. La fovéa est la région centrale de la rétine (5 degrés d’angle) où l’acuité visuelle et la résolution spatiale sont les meilleures. Les cônes y sont majoritairement localisés (150 000 cônes/m2 ). La fovéola est une zone très petite(1 degré d’angle) située à l’intérieur de la fovéa qui correspond à la zone de fixation. Dans la rétine centrale, on constate un phénomène d’amplification de l’information, le phénomène de divergence. Une cellule photo-réceptrice va activer plusieurs cellules bipolaires, ce qui explique les bonnes performances de la zone centrale de la rétine. — La rétine périphérique. La périphérie de la fovéa est la zone qui représente la quasi-totalité de la surface rétinienne, et contient majoritairement des bâtonnets. Il n’y a qu’une très faible densité de cônes. C’est la zone spécifique à la perception de faibles luminosités et il n’y a pas de perception détaillée. Dans la rétine périphérique, 30 à 50 bâtonnets rentrent en contact avec une cellule bipolaire c’est ce qui s’appelle le phénomène de convergence. Il conduit à une compression de l’information qui devient moins précise. Ceci implique une moindre acuité visuelle et une moins bonne performance spatiale de la zone périphérique de la rétine. En d’autres termes, la localisation précise de l’information ne peut pas être définit vue qu’elle a été regroupée avec plusieurs cellules. En effet, on ne peut pas connaitre lequel des 50 bâtonnets a reçu le signal. Le champ récepteur d’un neurone est la portion de la rétine qui influence par excitation ou par inhibition l’activité du neurone lorsqu’elle est soumise à un stimulus visuel. L’intensité de la réponse du neurone dépend de la position du stimulus à l’intérieur du champ récepteur. La forme du champ récepteur correspond à l’intensité avec laquelle le neurone réagit en fonction de la position du stimilus dans le champ récepteur. Elle est importante pour la compréhension du système visuel car elle correspond à un filtrage rétinien []. La forme du champ récepteur peut aussi dépendre de la longueur d’onde du stimulus visuel. Le neurone peut être excité par certaines longueurs d’onde, et inhibées par d’autres []. Le champ récepteur d’une cellule photo-réceptrice se limite au petit spot lumineux qui, dans le champ visuel, correspond à la localisation précise du photo-récepteur sur la rétine. Mais au fur et à mesure que l’on passe d’une couche de la rétine à l’autre, et aux neurones du cortex visuel, les champs récepteurs deviennent plus complexes.
DE L’ŒIL AUX VOIES VISUELLES
Les cellules horizontales
Les cellules horizontales sont en contact avec les photorécepteurs et les cellules bipolaires. Elles sont connectées latéralement à plusieurs cônes, bâtonnets et neurones bipolaires. Leur rôle est d’inhiber l’activité des cellules avoisinantes. Cette suppression sélective de certains signaux nerveux s’appelle l’inhibition latérale et son rôle principal est d’augmenter l’acuité d’un signal sensoriel. Dans le cas de la vision, quand une source lumineuse atteint la rétine, elle peut illuminer fortement certains photo-récepteurs et d’autres beaucoup moins. En supprimant le signal de ces photo-récepteurs moins illuminés, les cellules horizontales assurent que seul le signal des photo-récepteurs bien illuminés est transmis aux cellules ganglionnaires, améliorant ainsi le contraste et la définition du stimulus visuel. Les cellules bipolaires Les cellules bipolaires relient un ou plusieurs photo-récepteurs à une cellule ganglionnaire. Les champs récepteurs des cellules bipolaires, qui correspondent aux régions du champ visuel où la présence d’un stimulus visuel modifie l’activité nerveuse de ces neurones de manière excitatrice ou inhibitrice sont circulaires et divisés en deux régions concentriques antagonistes le centre et le pourtour(ou la périphérie). On dit que les cellules bipolaires ont un champ récepteur de type centrepourtour(center-surround en anglais). Les cellules bipolaires dites ON réagissent à une excitation des photo-récepteurs et une inhibition des cellules horizontales, ce qui se produit lorsque le signal incident est un spot de lumière entouré d’un pourtour sombre. Les cellules bipolaires dites OFF réagissent à une excitation des cellules horizontales et une inhibition des photo-récepteurs, ce qui correspond à un signal incident sombre au centre et lumineux au pourtour. Cette interaction antagoniste du centre sur le pourtour des cellules bipolaires est appelée mécanisme d’opposition centre-pourtour. Ce mécanisme permet aux cellules bipolaires d’être sensibles au contraste de luminance spatial( concept expliqué dans la section 1.4 .
I DÉTECTION DE LA SAILLANCE ET SEGMENTATION D’OBJET |