Localisation de l’objet sur une ligne de vue
Un problème de reconnaissance d’apparence
À l’instant initial, la caméra déportée voit l’objet et la caméra embarquée est dans une position quelconque. Rien ne garantit a priori que l’objet se projette dans la première image acquise par la caméra embarquée, par contre, il est situé à proximité de la ligne de vue associée au clic, il apparaît donc dans plusieurs images successives acquises lors du parcours de la ligne de vue (voir le chapitre précédent). Les informations les plus pertinentes se trouvent au voisinage du clic. Connaissant la position du clic dans la vue de la caméra déportée, une vue de l’objet est donc disponible à son voisinage. Ainsi, repérer l’objet sur la ligne de vue revient à résoudre un problème de reconnaissance d’objet en recherchant, dans les vues de la caméra embarquée, des structures ou des éléments identiques à ceux qui se trouvent à proximité du clic dans la vue de la caméra déportée. Tandis que la caméra déportée donne une vue globale de la scène et est relativement éloignée de l’objet, la caméra embarquée peut être déplacée à l’intérieur de la scène et en donne une vue de détails. L’objet est donc vu depuis deux points de vue radicalement diérents.
La méthode de reconnaissance doit donc être robuste à la fois aux changements d’échelle et aux changements d’orientation. Si l’objet est relativement petit dans l’image de caméra déportée, comme c’est le cas sur la – gure (4.1), il pourrait être intéressant de limiter l’extraction de données à la zone de l’image la plus pertinente, pour gagner en temps de calcul et en précision de localisation. Nous reviendrons sur les méthodes de segmentation d’un objet inconnu dans le chapitre 8. Dans ce chapitre, pour ne pas imposer de contrainte supplémentaire sur la scène et les objets, nous proposons une méthode de localisation
Méthode de reconnaissance robuste
Ce paragraphe présente une méthode de reconnaissance robuste aux changements d’échelles et d’orientation, reposant sur l’apparence de l’objet au voisinage du clic. Dans un premier temps, la méthode de calcul des descripteurs visuels est présentée, puis une méthode de mise en correspondance permettant de déterminer l’emplacement de l’objet dans les images et enn l’information que cette mise en correspondance donne sur la profondeur de l’objet sur la ligne de vue. Par la suite, cette information sera convertie sous forme d’une densité de probabilité sur la position de l’objet sur la ligne de vue, nous ramenant ainsi à un problème unidimensionnel. 4.2.1 Invariants robustes aux changements d’échelle et d’orientation L’objectif est de décrire le voisinage du clic par un ensemble de descripteurs qui pourront être reconnus, dans la vue embarquée, sous un changement d’orientation et d’échelle importants.
Les descripteurs photométriques locaux (SIFT [Lowe 04], SURF, FERNS, GLOH) répondent très bien à ce type de problème : ils sont discriminants, robustes aux occultations et ne demandent pas de segmentation. Ils sont calculés directement à partir de l’information contenue dans des images numériques au voisinage de points d’intérêt : intensité des pixels, couleur, texture, contour, orientation des gradients, etc. Diérents types de descripteurs ont été développés et leur ecacité dépend du choix de la méthode d’extraction des points d’intérêt, de la construction du descripteur et de la technique de mise en correspondance. Dans notre cas, nous nous intéresserons à des descripteurs basés sur les niveaux de gris. Les principaux descripteurs utilisés dans le contexte de la reconnaissance ou la mise en correspondance d’une même scène ou d’un objet sous des orientations diérentes ont été comparés par Mikolajczyk et Schmidt dans une étude parue en 2005 [Mikolajczyk 05]. Il apparaît que les descripteurs SIFT 1 (Scale Invariant Features Transform) [Lowe 04] et leur extension, les descripteurs GLOH (Gradient Location and Orientation Histogram) permettent d’obtenir la meilleure qualité de mise en correspondance.
Mise en correspondance des descripteurs SIFT
Pour retrouver dans une image embarquée l’objet qui se trouve au voisinage du clic dans l’image déportée, il faut mettre en correspondance les points extraits dans chacune des vues, c’est-à-dire pouvoir comparer deux descripteurs et déterminer s’il s’agit du même point. La mise en correspondance des descripteurs peut être basée sur le calcul de la distance euclidienne. Les points de l’image de référence sont comparés un à un à l’ensemble des points de l’image de test. La distance séparant deux points est calculée. Les mises en correspondance sont ensuite classées par ordre croissant de distance euclidienne. Le rapport entre la plus proche distance et la seconde plus proche distance est ensuite calculé.
Plus ce rapport est proche de 1 et plus les distances sont proches. Cela signie que la mise en correspondance n’est pas discriminante. Plus ce rapport diminue, plus l’écart entre les distances augmente et plus la mise en correspondance est correcte. En eet, cela signie que le point de plus proche distance est similaire au point testé alors que tous les autres en sont éloignés. Finalement l’algorithme rejettera toutes les mises en correspondance qui résultent en un ratio supérieur à 0.8. Le problème de l’identication de descripteurs similaires pour des vecteurs de grande dimension est la complexité élevée si la solution exacte est recherchée. La recherche best-bin-rst (BBF) [Beis 97], basée sur les k-d tree, permet d’identier ecacement les plus proches voisins avec une probabilité élevée. Pour améliorer la mise en correspondance, un poids double est attribué aux points qui sont générés à plus grande échelle.