Annotation automatique d’images par apprentissage profond
Motivation
L’annotation d’images a pour but de leur attacher des informations textuelles à des images pour faciliter leurs exploitations. Par exemple, l’indexation d’une image est utilisée dans les systèmes textuels permettant à l’utilisateur de rechercher les images ; en formulant des requêtes dans un langage naturel ou pseudo naturel et exprimer ainsi ses besoins plus facilement. L’annotation d’une image peut être effectuée soit par annotation textuelle manuelle, soit par annotation automatique basée sur le contenu de l’image. L’annotation manuelle rencontre un problème sur le choix de termes utilisés pour annoter une image. L’annotateur a tendance à associer des termes qui lui semblent pertinents selon son interprétation mais qui sont souvent subjectifs et ambigus. L’annotation manuelle est parfois effectuée par des spécialistes, les iconographes. Ces spécialistes associent les images à des mots et groupes de mots extraits d’un thesaurus ou à des catégories prédéfinies. Ce processus est très couteux en ressource humaine et temporelle compte tenu de l’immensité et la difficulté du travail à effectuer pour une grande collection d’images, même si des applications de jeux sérieux ont été développées pour palier le problème de coˆut financier. En alternative, l’annotation automatique est utilisée en se basant sur le contenu de l’image. L’annotation automatique d’images concerne, en général, l’extraction de caractéristiques visuelles de l’image jusqu’à la prédiction des concepts sémantiques les plus pertinents décrivant (par des textes) cette image. On rencontre 3 types de problèmes, dans l’annotation automatique d’une image selon [64] [5] illustrés par la Figure 1.1. Cette figure expose en parallèle la différence entre la vision humaine et un système de vision cognitive.• Fossé sensoriel : représente la perte et/ou la déformation des informations due aux appareils utilisés lors de l’acquisition de l’image numérique (appareil photo numérique, médical, satellitaire, scanner,. . . ). La perte peut venir des performances de l’appareil utilisé et des bruits numériques. • Fossé numérique : concerne la capacité d’un modèle (descripteur) à extraire les signatures visuelles pertinentes. Ce problème est lié au choix du descripteur. Par exemple, le choix effectué pendant le feature engineering (traitement des variables) se portant sur les couleurs, la forme ou la texture, les descripteurs locaux ou globaux, cela pour extraire les caractéristiques les plus pertinentes d’une image. Dans sa thèse [17], Nicolas HERVE a écrit : ”Le gap numérique est l’écart entre l’information qui est présente visuellement dans une image et celle qu’un descripteur est capable d’extraire et de représenter” • Fossé sémantique : problème majeure de l’annotation automatique d’images, elle peut être considérée comme le manque de corrélation entre la manière dont les humains per¸coivent les informations et celle dont les ordinateurs représentent ces informations. Smeulders et al. [64] expriment ainsi : “The semantic gap is the lack of coincidence between the information that one can extract from the visual data and the interpretation that the same data have for a user in a given situation”. A la différence de l’étude des systèmes documentaires textuels, le fossé entre les caractéristiques visuelles bas niveaux de l’image (couleur, texture,. . . ) et ses caractéristiques sémantiques de haut niveau (description et signification) est assez large. L’annotation automatique d’une image se résume par la modélisation de la relation entre les caractéristiques visuelles de l’image et ses caractéristiques sémantiques. D’un cˆoté, les caractéristiques visuelles d’une image numérique peuvent être extraites par des algorithmes d’analyse d’image qui étudient la distribution des valeurs de chaque pixel de l’image. D’un autre cˆoté, l’interprétation de cette image nous conduit à la sémantique de cette image. Le défi majeur dans le cadre de l’annotation automatique concerne l’extraction automatique des informations sémantiques de l’image en réduisant la distance entre la signification et les caractéristiques visuelles qui correspond au fossé sémantique. Pour réduire ce fossé sémantique, des techniques d’apprentissage automatique ont été massivement utilisées et ont abouti à de bonnes performances. A partir d’une base d’apprentissage constituée d’images déjà annotées, il est possible de construire des modèles capables par la suite de prédire des annotations pour de nouvelles images [Figure 1.2 et Figure 1.3]. Notre travail de recherche porte sur l’étude des algorithmes d’apprentissage profond pour associer images et textes à partir des réseaux de neurones artificiels (RNA). Ces modèles très récents ont été utilisés pour représenter les images et les textes afin d’extraire leurs significations et ensuite les relier. Nous nous sommes particulièrement intéressés à la description des images par génération de phrases descriptives ou légendes (Figure 1.4). Les phrases 1 contiennent des informations plus détaillées des images. Elles sont composées de variétés de classes de mots : verbe, nom, adjectif,. . . qui suivent des règles grammaticales permettant de mieux décrire des images. Aussi dans les phrases, les concepts abstraits, comme riding, sont situés dans un contexte (people et horse), qui facilite leur apprentissage Une solution est d’associer directement les images et les phrases de la collection de données. Cependant, la description d’une nouvelle image nécessite des informations sur les concepts présents dans cette image pour ensuite générer de nouvelles phrases qui peuvent être différentes des phrases de cette collection. Ainsi, nous avons utilisé un modèle de génération de phrases pour la description d’une image en combinant les travaux pour la compréhension d’une image et les travaux pour la génération de phrases. Notre proposition comprend 2 étapes : la première étape analyse les caractéristiques visuelles des images afin de les classer et la seconde fusionne les caractéristiques visuelles et textuelles pour générer des annotations. La première étape utilise les méthodes d’apprentissage supervisé pour la classification des images. A partir des données d’apprentissage, il est possible de construire un modèle pour classifier les images dans des catégories prédéfinies. Ces catégories ou classes définissent les concepts présents dans les images. Les modèles sont créés par apprentissage de classifieurs pour grouper les images à partir de ses caractéristiques visuelles (souvent représentés par des vecteurs) extraites des descripteurs issus des travaux dans le domaine de la vision par ordinateur comme les réseaux neuronaux convolutifs. Après avoir extrait les caractéristiques visuelles d’une nouvelle image, le modèle est utilisé pour prédire la classe correspondante. Le concept visuel associé à cette classe est ensuite attribué à cette image lors de l’annotation. Notre étude s’est focalisée sur la classification multi-classe qui a été utilisée pour la reconnaissance de formes et d’objets [35], [63], [66], [62], reconnaissance de scènes [82] dans le domaine de la vision par ordinateur. La seconde étape de notre contribution utilise les modèles multimodaux qui exploitent la multi-modalité des données : les images et les textes associés. La tˆache principale est d’analyser le contenu de l’image et de générer des descriptions textuelles en relation avec ce contenu. Les travaux effectués sont basés sur des travaux issus du domaine de la vision par ordinateur et du traitement automatique du langage naturel (TALN) pour aboutir à la génération de textes décrivant des images.
1 Introduction |