Détection par corrélation croisée
La corrélation croisée est une mesure de similarité qui a de nombreux avantages. Cette méthode est facile à implémenter, aisément adaptable à une grande variété de formes et ne requiert pas d’extraction de descripteurs complexes ou une large base d’apprentissage. De plus, la corrélation croisée est l’opération linéaire optimale d’un point de vue rapport signal sur bruit pour détecter la position spatiale ou temporelle d’un signal connu dans un bruit blanc stationnaire [96]. Le maximum du signal résul- tant correspondant alors à la position la plus probable du signal recherché. L’énergie du bruit dans une image (en détection, le bruit correspond à tout ce qui n’est pas l’objet à détecter) n’est pas stationnaire, ce qui rend la simple corrélation croisée peu performante pour effectuer une détection d’objets. De plus, cette mesure de similarité n’est pas très bien adaptée à la détection d’objets complexes tels que des visages. En effet, la corrélation n’est que peu robuste aux variations d’illumination, d’échelle ou de rotation qui ne peuvent être considérées comme un simple bruit blanc. La corré- lation croisée normée est une mesure de similarité basée sur la corrélation mais qui permet grâce à une normalisation des signaux, de rendre plus robuste la détection aux variations d’énergie et de luminosité de l’image.
Excepté pour des formes simples [68], la corrélation croisée normée n’a été que peu employée pour la détection d’objets car elle ne permet pas de tenir compte des variations de forme, de couleur, de prise de vue, ou d’échelle. Dans ce chapitre, nous proposons d’associer la corrélation normée croisée à la méthode des plus proches voisins afin de pouvoir représenter les différentes formes que peut prendre l’objet à détecter. Ainsi, un objet sera détecté à une position et échelle donnée si la mesure de similarité maximum entre l’image test et l’ensemble des images exemples est supérieure à un seuil donné. Plus la base d’exemples est grande, mieux cet objet sera modélisé. Cependant, les temps de calculs sont directe- ment proportionnels au nombre d’images exemples disponibles, ce qui limite la taille de la base d’exemples. Nous effectuerons nos expérimentations sur la détection de visages qui bénéficie d’une littérature abondante, les visages étant considérés comme l’objet complexe par excellence (un visage peut revêtir différentes formes, différentes couleurs, de nombreuses expressions différentes, ainsi que des éclairages très divers). Nous commencerons par décrire les principes de la corrélation croisée ainsi que la corrélation croisée normée et la corrélation croisée normée centrée. Nous étudierons ensuite la corrélation directement appliquée aux images en Niveaux de Gris afin de déterminer l’influence des différentes variations de forme, de position et d’échelle. Ensuite, nous étudierons la corrélation sur des images préalablement traitées par la méthode de Sobel afin d’extraire les contours des images et de diminuer la sensibilité de la mesure de similarité aux variations de luminosité. Finalement, nous introdui- rons une méthode dérivée de la PCA permettant d’extraire les formes revenant le plus souvent dans une base d’images exemples et de calculer ainsi des filtres adaptés à l’objet que nous souhaitons détecter.
La corrélation croisée est aussi connue en statistique pour désigner la covariance de vecteurs aléatoires x et y. En traitement du signal, la corrélation permet de mesurer la similarité entre deux signaux x (t) et y (t). En traitement d’image, t est un vecteur à deux dimensions représentant les coordonnées (i; j) des pixels des images. La fonction s( ) résultante s’écrit :Dans cette section, nous commençons par mettre en œuvre un système de dé- tection basé sur la corrélation des images en Niveaux de Gris, associé à la méthode des plus proches voisins. Nous utiliserons pour tester ce système la base de données ‘Face 1999 (Front)’ (Annexe : A.1). Cette base comporte 450 visages de 27 personnes distinctes. Elle est normalement destinée à la reconnaissance de visages plutôt qu’à la détection ; elle est cependant bien adaptée pour comparer les résultats d’un sys- tème de détection aussi basique qu’une simple corrélation. Nous utiliserons une base d’exemples composée de 80 visages (figure : 3.1).