Evaluation des descripteurs de Fourier
Les chapitres précédents ont abordé un des points clés essentiels pour réaliser la tâche de reconnaissance d’objets : l’extraction des caractéristiques. Le but de ce chapitre est d’évaluer les performances, dans un contexte de reconnaissance d’objets, des descripteurs proposés dans ce document. De nombreuses applications de reconnaissance automatique d’objets sont proposées dans la littérature. Certaines sont spécifiquement destinées à des traitements temps réel tel que les travaux de Gould et al. [35] et Shotton et al. [72]. Les structures des systèmes de reconnaissance les plus communes utilisent un seul descripteur suivi d’un seul classifieur [18, 59, 86], d’autres systèmes font appel à des combinaisons associant plusieurs descripteurs et/ou classifieurs [66, 32, 30]. Dans cette thèse, nous proposons d’utiliser la structure classique basée sur un un classifieur. En ce qui concerne les descripteurs, nous mettons en place ceux dans le chapitre précédent, à savoir : les invariants spectraux (PS) et bi-spectraux (BS) généralisés et leurs homologues rotationnels (RPS) et (RBS), nous considérons aussi combinaison des deux descripteurs BS et RPS. En effet, combiner ces deux semble être un bon compromis entre le résultat théorique de la complétude donné théorème 4.4.3 (qui ne tient que pour le RBS) et les calculs, comme le montreront les résultats sur les différentes bases d’images. Pour les classifieurs, nous aurons recours méthode de classification supervisée à noyau : les machines à vecteurs de support Annexe : Machines à vecteurs de support (SVM)). Dans l’objectif de comparer nos ensembles de descripteurs de Fourier aux principaux de la littérature, une série d’expérimentations complexes est menée. Cette dernière testera et comparera des descripteurs globaux tels que les moments de Zernike et de Hu, les invariants de Fourier-Mellin, des descripteurs locaux tels que les SIFT et les histogrammes de gradients orientés, et notre ensemble de descripteurs de Fourier {PS, BS, RPS, RBS, RPS & BS}. Les Evaluation des descripteurs de Fourier 97 performances de reconnaissance de ces différents descripteurs par rapport à l’invariance par rotation, la capacité de discrimination et la robustesse aux bruits, seront calculées. Pour évaluer les descripteurs de Fourier que nous avons définis dans la partie théorique (chapitre 3), nous mettons en place différentes expérimentations sur des bases d’images standards. Nous commencerons par étudier la capacité de discrimination chez ces descripteurs en les évaluant sur une base d’images synthétiques, ensuite nous comparerons leurs performances avec celles des descripteurs locaux et globaux en les testant sur des bases de visages comme RL7 , CVL [75], ORL [64], Shieffeld8 et Extended Yale b[31], et sur une base d’images d’objets variés larges comme COIL-100 [51]. Enfin, nous évaluerons ces descripteurs de Fourier pour une problématique de reconnaissance de navires dans un contexte de surveillance maritime.
Les bases d’images utilisées a. Base d’images synthétiques
La première base d’images de test est composée des images de quelques formes géométriques simples (triangles, rectangles, étoiles, ellipses ….) et qui ont subit des rotations entre 0 à (Figure 46) Figure 46 : Base des images synthétiques 7 http://robotics.csie.ncku.edu.tw/Databases/FaceDetect_PoseEstimate.htm#Our_Database_ 8 https://www.sheffield.ac.uk/eee/research/iel/research/face 98 b. Base de visages RL La base de visages RL a été construite par le laboratoire RL (Robotics Laboratory, Department of Computer Science and Information Engineering), basé à l’université nationale de Cheng Kung, Taiwan. Elle contient 6660 images de 90 sujets. Chaque sujet a 74 images, où 37 images ont été prises tous les 5 degrés du profil droit (défini par +90°) au profil gauche (défini par -90°) dans le plateau de rotation (Figure 47). Les 37 images restantes sont générées (synthétisées) par les 37 images existantes à l’aide d’un logiciel commercial de traitement d’images afin d’obtenir les images symétriques. Les images suivantes constituent un exemple de cette base de données, avec des rotations de 0° (frontal) -> -90° (profil de gauche) (Figure 47) : Figure 47: Extrait de la base RL. Pour chacune des 90 personnes enregistrées, on dispose de 74 vues avec des poses différentes c. Base de visages CVL La base CVL a été collectée par le chercheur Peter Peer, membre du Computer Vision Laboratory (CVL) à l’université de Ljubljana, Slovénie. Elle contient 114 personnes dont 90% sont de sexe masculin et avec un âge moyen de 18 ans, chacune étant enregistrée sous 7 vues différentes avec des expressions faciales différentes (Figure 48 et Figure 49). Les images sont en couleur de taille pixels. Pour tous les sujets, les images ont été collectées dans des conditions d’éclairage uniformes avec des variations de poses et d’expressions faciales. Parmi ces vues, trois seulement sont de face. 99 Figure 48: Extrait de la base CVL. Ensembles de vues collectées pour un individu de la base Figure 49: Trois expressions faciales extraites de la base CVL d. Base de visages ORL Cette base de données de visage a été créée au laboratoire AT&T, basé à Cambridge (Figure 50). Elle contient 40 personnes de sexe différent. Les images sont de taille pixels. 10 vues différentes de chaque sujet ont été collectées (Figure 51). Ces vues présentent différentes poses et expressions faciales (expression neutre, sourire et yeux fermés) et des occlusions partielles par des lunettes, sous des conditions de luminosité variables. Figure 50 : Base de visages ORL 100 Figure 51 : Exemples de visages enregistrés sous des vues différentes e. Base de visages Sheffield La base de visages Sheffield (auparavant UMIST) est composée de 564 images de 20 individus (race/genre/apparence mixtes), chacun représenté dans un intervalle de poses, allant des vues de profil aux vues frontales (Figure 52). Les images des visages sont sous le format PGM et sont de taille pixels. Figure 52: Base de visages Sheffield f. Base de visages Extended Yale B La base extended Yale B est une verison étendue de la base de visages Yale B construite par l’université de Yale. Cette base est considérée comme la base standard pour l’évaluation de la robustesse des systèmes de biométrie faciale en cas de conditions d’illumination variables (Figure 53). Elle est composée de 16128 images faciales de 10 personnes, chacune enregistrées sous 9 poses et 64 conditions différentes d’éclairages (en total 576 images par 101 individu). Le format des images de cette base est le même que celui des images de la base d’origine Yale B : format GIF en niveaux de gris. Figure 53: Base de visages Extended Yale B g. Base d’images COIL-100 Coil-100 (Columbia Object Image Library) est composée de 7200 images couleur de taille de 100 objets différents (Figure 54). Chaque image est composée d’un fond noir et chaque objet est pris sous 72 angles de vue différents (Figure 55). Cette base, utilisée dans des travaux similaires [74], peut être qualifiée de « facile » car le seul contenu fréquentiel est celui de l’objet d’intérêt. De plus, les objets ont souvent un contenu très géométrique.