Comment voit-on en relief
La mise en correspondance stéréoscopique
Modèle de formation des images
Modèle sténopé Commen¸cons par présenter le modèle de formation des images classiquement choisi en stéréovision binoculaire. Il s’agit du modèle dit sténopé 3 . Dans ce modèle, le système optique (l’appareil photographique) est caractérisé par son plan image et son centre optique, la distance entre ces deux éléments étant appelée distance focale. On appelle alors scène le demi-espace délimité par le plan image et ne contenant pas le centre optique. La prise de vue est ainsi modélisée : tout point physique de la scène est visible par ce système optique s’il existe une droite (qui modélise la trajectoire du rayon lumineux) reliant sans obstacle le point physique au centre optique. Son image par ce système optique est alors l’intersection de cette droite avec le plan image 4 . On pourra se reporter à la figure 2.1 pour mieux visualiser le modèle décrit. On utilisera par ailleurs désormais l’anglicisme caméra pour désigner l’appareil photographique. Cadre et champ d’une caméra En pratique, les photographies ont un domaine fini et rectangulaire, appelé cadre de la caméra. Les points physiques de la scène dont la projection sur le plan image est située à l’intérieur du cadre de la caméra forment le champ de la caméra. Les autres points sont dit hors-champ. Sauf mention contraire, nous ne considérons désormais plus que les points physiques du champ de la caméra, et le terme domaine de l’image désignera la restriction du plan image au cadre de la caméra. Notons que le fait d’être situé dans le champ de la caméra n’assure pas à un point d’être visible par celle-ci. Paramètres intrinsèques On munit le plan image d’un repère orthonormé. Son origine est le coin inférieur gauche du cadre de la caméra et les deux axes sont portés par les deux cˆotés issus de l’origine. Appelons point principal le projeté du centre optique sur le plan image. La distance focale et les coordonnées dans le repère précédemment introduit du point principal sont appelées paramètres intrinsèques de la caméra. La donnée des paramètres intrinsèques d’une caméra et de son cadre est suffisante pour en déduire toutes les caractéristiques du système optique étudié. On notera que, dans le cas des caméras réelles, le centre optique se projette généralement sur le centre du cadre 5 , auquel cas on parlera de caméra parfaite. Intensité d’un pixel On distinguera le point physique de la scène M ∈ R 3 , de coordonnées (X,Y,Z) dans un repère donné de l’espace, de sa projection (si elle existe) m ∈ R 2 sur le plan image, de coordonnées (x,y) dans le repère de l’image, que l’on appellera pixel. Une image I désigne une fonction qui, à tout pixel du cadre de la caméra, associe son intensité, enregistrée par la caméra. L’intensité désigne de manière générique le niveau de gris dans le cas des images en niveaux de gris ou la couleur dans le cas des images couleurs. On choisit comme système de représentation des couleurs le système RGB (red, green, blue). L’image I est donc une fonction, définie sur le domaine rectangulaire Ω ⊂ R 2 , et à valeurs dans R ou dans R 3 . En l’absence de bruit ou d’aberration 5. C’est pourquoi le point principal est parfois appelé centre de l’image.
Géométrie épipolaire et rectification des images Paire stéréoscopique
Supposons maintenant que la scène est photographiée par deux caméras, caractérisées par leur plan image, leur centre optique, leur distance focale et le domaine de leur image. On supposera ce dernier de dimension identique pour les deux caméras. La scène est alors définie comme l’intersection des champs associés aux deux caméras. On impose pour le moment les contraintes suivantes : • les deux centres optiques sont distincts ; • chaque centre optique n’appartient pas à la scène de l’autre caméra ; • on écarte le cas trivial o`u la scène est vide. La première condition élimine le cas d’une simple rotation de la caméra autour de son centre optique. La seconde évite en particulier que l’une des deux caméras soit visible par l’autre (et notamment que les deux caméras se fassent face). En pratique, les images sont capturées soient par la même caméra, qui se déplace dans l’espace, soit par deux caméras simultanément. Dans le premier cas, les paramètres intrinsèques de la caméra restent inchangés, mais les objets de la scène peuvent avoir bougé entre deux prises de vue (par exemple : des voitures pour les vues aériennes). Dans le second cas, les paramètres intrinsèques des deux caméras peuvent être différents. Droites épipolaires, plan épipolaire Soit M un point de la scène. Les contraintes présentées plus haut assurent que le point M et les deux centres optiques, notés OL et OR, ne peuvent être alignés, car la droite (OL,OR) ne peut être dans le champ des deux caméras à la fois. Ils définissent donc un plan, que l’on appelle plan épipolaire associé au point M. Ce plan coupe le plan image de la caméra de gauche selon une droite, appelée droite épipolaire de l’image de gauche associée au point M et notée ℓL(M) et coupe de la même manière le plan image de la caméra de droite selon la droite épipolaire de l’image de droite associée au point M et notée ℓR(M). Le pixel mL, image du point M par la caméra de gauche, appartient à la droite épipolaire ℓL(M), tandis que l’image mR du point M par la caméra de droite, appartient à la droite épipolaire ℓR(M). Déplacement fronto-parallèle de la caméra Dans le cas général, pour un point M donné, les droites épipolaires associées ont des directions totalement arbitraires. On va à présent imposer certaines contraintes sur les droites épipolaires et en déduire les conditions nécessaires sur les deux systèmes optiques que cela entraˆıne. On demande dans un premier temps que, pour tout point M, les droites épipolaires soient confondues dans les deux images. Ces droites appartenant chacune au plan image de sa caméra associée, on en déduit que les deux plans image doivent être confondus. On souhaite dans un second temps contraindre toutes les droites épipolaires à être horizontales, c’est-à-dire parallèles à l’axe horizontal du repère de leur image respective. Supposons donc que c’est le cas. Soient M et M′ deux points dont les droites épipolaires ℓ et ℓ ′ (qui sont maintenant les mêmes dans les deux images) sont distinctes et horizontales, situées dans le plan image commun des deux caméras. Les deux plans épipolaires associés contiennent par définition les centres optiques CL et CR, ils se 36 M • CL • CR • ℓL(M) ℓR(M) IL IR • M′ • mR • m′ R Figure 2.2 – Géométrie épipolaire. Le plan épipolaire, représenté ici par un triangle plein, est le plan passant par les trois points non alignés CL, M et CR. Il coupe chacun des deux plans images selon une droite, ℓL(M) et ℓR(M), appelées droites épipolaires. Tous les points de la scène appartenant à la droite (MCR) (resp. (MCL)) ont pour projection un point de la droite épipolaire ℓL(M) (resp. ℓR(M)). coupent donc selon la droite (CLCR), appelée baseline. Or, les deux plans épipolaires sont parallèles par hypothèse aux droites épipolaires ℓ et ℓ ′ , d’o`u l’on en conclut que c’est également le cas de leur intersection. La baseline est donc parallèle au plan image commun, ce qui implique que les deux systèmes optiques ont même distance focale. On en déduit également que la baseline est parallèle à l’axe horizontal commun du repère de chacune des images. Lorsque les deux caméras sont dans cette configuration particulière, leurs paramètres intrinsèques (distance focale et coordonnées du point principal) sont identiques. On parle alors de déplacement fronto-parallèle de la caméra (cf. figure 2.3). En effet, si la scène est statique, on peut considérer qu’il s’agit de la même caméra que l’on a translatée selon la direction horizontale du repère associé à son image. Réciproquement, on montre que, lorsque les deux caméras ont mêmes paramètres intrinsèques et que le repère associé à l’image de droite est la translatée horizontale du repère associé à l’image de gauche, alors les droites épipolaires sont confondues dans les deux images et sont horizontales. Rectification épipolaire Dans le cas général, il est possible de se ramener au cas o`u les droites épipolaires sont confondues d’une image à l’autre et horizontales, via une étape de rectification épipolaire. Cette opération consiste à déterminer deux homographies [30], qui permettent de transformer les deux images afin d’aligner les droites épipolaires. Cela revient à simuler deux nouvelles caméras et leur image respective. Les homographies sont estimées en mettant en correspondance des points SIFT [25] des deux images. Il faut cependant noter que la rectification épipolaire est stable par translation horizontale et par translation verticale simultanée des deux images. En d’atures termes, l’abcisse des points principaux des caméras simulées est arbitraire, de même que leur ordonnée (commune). Ainsi, bien qu’elles aient même distance focale, on ne peut plus parler de déplacement fronto-parallèle, car les paramètres intrinsèques de deux caméras . Les deux droites épipolaires ℓL(M) et ℓR(M) sont confondues, parallèles à l’axe horizontal (commun) des deux repères respectifs (OL; ~xL, ~yL) et (OR; ~xR, ~yR) des deux images. Tout pixel de l’image de droite situés sur la droite épipolaire ℓR(M) est la projection d’un point appartenant à la droite (CLM), et réciproquement, la projection de tout point de la scène appartenant à la droite (CLM) est située sur ℓR(M). Les paramètres intrinsèques des deux caméras étant identiques, on peut se ramener au cas d’une unique caméra, translatée du vecteur C ~ LCR parallèle à l’axe (OL; ~xL). simulées sont potentiellement différents. Il est néanmoins facile de se ramener dans ce cas grˆace à une translation (horizontale) du repère d’une des caméras simulées. La contrainte de déplacement fronto-parallèle de la caméra est naturelle. Elle correspond d’une part à la configuration de la vision humaine (o`u la paire d’images est obtenue grˆace à nos deux yeux). Un rendu en relief naturel tel que ceux proposés par l’industrie cinématographique suppose que les caméras sont en déplacement frontoparallèle l’une par rapport à l’autre, avec un écartement équivalent à celui des yeux. D’autre part, ainsi qu’on va le voir dans le paragraphe suivant, cette configuration simplifie la reconstruction du relief. C’est pourquoi la plupart des algorithmes de stéréovision suppose que les images sont rectifiées au préalable. Nous en ferons de même dans tout ce qui suit.