Introduction et objet de l’étude.
La détection et la localisation d’objets d’une famille donnée, ou de parties discri- minantes, dans les images constitue un outil fondamental pour l’indexation séman- tique automatique et la recherche des contenus audiovisuels, ceci pour de multiples applications incluant les services de distribution de contenus, la gestion des conte- nus personnels, les moteurs de recherche ou encore la vidéo surveillance. Ces vingt dernières années, l’augmentation des moyens informatiques associée à l’avènement de méthodes de classification puissantes tels que l’AdaBoost ou les réseaux de neurones ont permit d’obtenir des systèmes de détection d’objets et en particulier de détection de visages très performants.Ces systèmes sont capables, à partir d’un grand nombre d’images exemples ma- nuellement annotées représentatives de la classe d’objet à détecter, d’apprendre à distinguer une image de cet objet d’une image n’appartenant pas à cette classe. L’annotation manuelle de ces exemples est un travail long et fastidieux. Nous pro- posons dans ce document de mettre au point une méthode d’appariement robuste permettant d’obtenir un système de détection capable de fonctionner avec une base d’images exemples de dimension réduite.Afin d’arriver à ce résultat, nous nous somme inspiré des méthodes de détection d’objets et ou de visages les plus performantes. Nous avons commencé par utiliser une méthode de détection simple mais peu efficace basée sur une mesure de similarité par corrélation. Nous avons ensuite amélioré ce système en y apportant diverses idées inspirées des systèmes de détection de l’état de l’art comme l’utilisation de filtres convolutionnels, ou des traitements d’images permettant de corriger les variations d’illumination. Nous avons ainsi mis au point un système de détection de visages fonctionnel avec très peu d’exemples.
Introduction aux systèmes de détection.
Cette section décrit les idées communes à l’ensemble des systèmes de détection d’objets dans une image. Bien que de tels systèmes soient basés sur une grande variété de technologies, leur fonctionnement et leur évaluation sont basés sur des méthodes communes que nous nous proposons de décrire ici. Nous commencerons par décrire les difficultés posées par les problèmes de détection et en quoi ce problème se différencie de celui de la reconnaissance. Puis, nous décrirons l’architecture générale d’un système de détection et nous conclurons sur l’évaluation des performances d’un tel système.Le but d’un système de détection est de décider la présence d’un objet à une position et une échelle donnée dans une image. La première difficulté est que pour détecter un objet, il faut être capable de reconnaître si une image donnée appartient à la classe ‘objet’ ou ‘non objet’. La seconde difficulté est qu’un tel système doit tester la présence d’un objet dans une image à toutes les positions et échelles possibles, ce qui conduit à une complexité de calcul importante. Ainsi, le problème se rapproche de celui de la reconnaissance ou de la classification à deux classes avec la difficulté supplémentaire que la classe ‘non objet’ est très difficile à représenter puisqu’elle est constituée de l’ensemble des images ne représentant pas l’objet à détecter.Afin de pouvoir effectuer une détection multi-échelle sur une image test, la mé- thode généralement utilisée est la suivante : l’image test est successivement sous- échantillonnée d’un facteur de l’ordre de 1:2 conduisant ainsi en l’obtention d’une pyramide d’images dont la plus grande a les dimensions de l’image test et la plus petite celles de la dernière image de la pyramide contenant une image pouvant être traitée par le classifieur. Ainsi, l’objet pourra être détecté quel que soit son échelle.
Afin de déterminer l’échelle et la position d’un objet dans une image, l’architecture d’un système de détection est divisée en deux parties. Un système de classification capable de déterminer si une image donnée appartient à la classe ‘objet’ ou ‘non objet’ et un système permettant d’appliquer le système de classification à toutes les positions et échelles possibles de l’image dans laquelle nous souhaitons détecter un objet. Il existe un grand nombre de systèmes de classification différents que nous décrirons dans la partie état de l’art. Cependant, ces systèmes ont pour point commun de prendre en entrée une image de dimension h l fixée et de renvoyer en sortie un score de détection s caractérisant l’appartenance à la classe ‘objet’ ou ‘non objet’ (figure : 1.1).Figure 1.1 – Principe d’un système de classification pour la détection : un tel système renvoit pour une image de dimension h l un score caractérisant l’appartenance à la classe ‘objet’ ou ‘non objet’. Un seuil est ensuite généralement utilisé afin de classer l’image dans la catégorie correspondante.dans l’image test. La dimension minimum de l’objet détectable correspond à la di- mension de l’image traitée par le classifieur, la dimension maximum est celle d’un objet ayant pour hauteur et ou largeur la dimension de l’image test. Afin de détermi- ner la présence à chaque position et échelle de l’image à tester, le classifieur est utilisé à chaque position possible de l’ensemble des images de la pyramide, i.e, chaque pixel des images, résultant ainsi en une pyramide de cartes de scores (figure : 1.2).