Méthodes de conversion 2D à 3D
Il y a différentes façons d’effectuer une conversion 2D à 3D. En effet, il est possible de l’effectuer manuellement. Cependant, ce travail artistique est lent et par conséquent très coûteux. Afin de réduire les coûts et les délais de cette conversion, des méthodes ont été développées. Elles peuvent être regroupées en deux familles distinctes, à savoir : les méthodes semi-automatiques et les méthodes automatiques. La première famille vise à diminuer l’intervention humaine durant le processus de conversion, alors que la seconde fait exécuter l’ensemble du processus par des machines.
Méthodes semi-automatiques
On retrouve dans la littérature un large éventail d’approches qui permettent la génération semiautomatique de contenu stéréoscopique. Ces approches se distinguent les unes des autres autant par la quantité d’assistance manuelle nécessaire que par les techniques utilisées. Les notions de trames clés et de propagation de profondeur sont à la base de cette catégorie de méthodes. Il s’agit de sélectionner des trames clés de la vidéo qui recevront un traitement approfondi pour la déduction de la profondeur. Ces trames clés seront espacées, les unes des autres, par d’autres trames. Celles-ci sont non-clés, leurs profondeurs seront déduites par propagation des profondeurs des trames-clés.
Par exemple, dans l’étude de Chen et al. (2011) des trames clés sont manuellement sélectionnées, puis chaque trame clé est segmentée par la méthode interactive Watershed (Beu-cher & Meyer, 1993). Cette segmentation permet de séparer un objet principal de l’arrière-plan. L’intervention humaine permet de marquer par un trait chacune des deux régions, ainsi que d’y attribuer une profondeur. Par la suite, la profondeur est propagée aux trames non-clés en utilisant un modèle actif de contour. Cette approche ne permet d’affecter une profondeur qu’à une seule région. D’autres approches dépassent cette limitation et permettent d’obtenir plusieurs régions à différentes profondeurs. Comme l’approche de Cao et al. (2011) qui propose d’effectuer d’abord une sur-segmentation des trames clés par application de l’algorithme Watershed, puis une segmentation multi objets par applications répétés de l’algorithme de Graph-Cut (Boykov et al., 2001). L’assignation des profondeurs est là aussi manuelle. La propagation de la profondeur aux trames non-clés est, quant à elle, élaborée. En effet, en plus du fait qu’elle soit bidirectionnelle, elle introduit la notion de filtre bilatéral décalée qui fait intervenir les informations locales temporelles. L’étude Huang et al. (2015) reprend la même méthode utilisée par Cao et al. (2011) et y ajoute un procédé de raffinement des cartes de profondeurs propagées. Ce raffinement fait intervenir une modélisation bayésienne basée sur un modèle statistique des scènes naturelles, mais aussi l’application d’une banque de filtres de Gabor à la trame couleur dans l’espace CIELAB et à la profondeur propagée initialement obtenue.
La méthode proposée par Guttmann et al. (2009) fait intervenir de la classification. Elle considère comme trames clés la première et dernière trame d’une séquence. Les annotations manuelles consistent en des ensembles de pixels accompagnés d’une profondeur estimée par l’utilisateur. La profondeur des trames clés est obtenue par une optimisation basée sur les moindres carrés pondérés en imposant une contrainte spatiale. Puis, un classifieur de type machine à vecteurs de support (support vector machine, SVM) multi classes est entraîné sur les trames clés. Cette classification considère les points clés de type caractéristiques invariantes aux transformations d’échelle (scale-invariant feature transform, SIFT) et le niveau de gris de l’image. La classification obtenue est appliquée aux trames non-clés, les prédictions obtenues avec un haut score de confiance sont utilisées comme contrainte dans une étape finale d’optimisation par moindres carrés pondérés. Cette dernière étape prend également en compte des contraintes spatiales, temporelles et les pixels annotés.
Certaines méthodes semi-automatiques utilisent l’information issue d’une estimation de mouvement pour la propagation. Dans ce cadre, les approches de Varekamp & Barenbrug (2007) et Ju et al. (2016) traitent de la partie propagation uniquement. La méthode proposée par Varekamp & Barenbrug (2007) consiste dans un premier temps à estimer une profondeur initiale en appliquant un filtre bilatéral, puis à raffiner cette profondeur initiale par une compensation de mouvement. L’estimation de mouvement est effectuée sur des blocs de tailles fixes 16×16 entre la profondeur de la trame précédente et la profondeur initiale. Quant aux travaux de Ju et al. (2016), ils utilisent une estimation de mouvement dense. En effet, le flot optique de large déplacement (large displacement optical flow, LDOF) est employé . Deux mouvements sont calculés, celui en avant (trame précédentetrame actuelle) et celui en arrière (trame actuelle-trame précédente). Puis la cohérence des deux mouvements est vérifiée. Les pixels où il y a cohérence sont considérés comme régions temporellement cohérentes et leurs profondeurs sont calculées par l’application d’un filtre bilatéral décalé (celui proposé par Cao et al. (2011)). L’estimation de la profondeur des régions incohérentes est résolue par un algorithme qui formule le problème sous forme de champs aléatoires de Markov et utilise la saillance structurelle de la trame traitée.
La démarche de Li et al. (2012) traite de l’estimation de la profondeur des trames clés et de la propagation. L’étape d’estimation de la profondeur comprend une sur segmentation par application de l’algorithme des K-moyennes. Puis, une segmentation par application d’un algorithme de max-flow/min-cut sur l’image dont les objets à l’avant et arrière-plan ont été annotés par l’utilisateur. Pour la propagation, l’estimation de mouvement par blocs du standard H.264 est utilisée, et la cohérence avant-arrière est vérifiée (de la même manière que Ju et al. (2016)). Ainsi, pour les pixels où celle-ci est établie, la profondeur est obtenue par déplacement de celle de la trame précédente par son mouvement avant. Il en résulte une carte de profondeur contenant des trous qui sont remplis par un filtrage bilatéral. Une dernière étape de raffinement vise à compenser les erreurs dues aux mauvaises estimations de mouvement.
Méthodes automatiques
Les méthodes automatiques reposent sur l’extraction des informations de profondeur présentes dans une vidéo 2D monoscopique. Ces informations sont des indices de profondeurs. Les travaux (Wei, 2005; Zhang et al., 2011) présentent une liste détaillée des indices de profondeurs utilisés pour la conversion 2D à 3D. La sous section suivante présente les indices les plus couramment utilisés, suivie d’une revue de littérature des méthodes automatiques.
Indices de profondeur
Les indices de profondeur peuvent être classés en deux catégories : les indices statiques extraits à partir d’une seule image et les indices dynamiques qui nécessitent au moins deux images.
Indices de profondeur statiques
Parmi les indices de profondeur statiques les plus couramment utilisés, ilya:
Couleur et saillance Il s’agit de mettre en avant les parties de l’image qui attirent l’attention de l’observateur. Bien que ça ne soit pas un indice de profondeur à proprement dit, vu qu’un objet peut attirer l’attention même s’il n’est pas en avant-plan (Kim et al., 2010), ce principe est souvent utilisé pour générer un effet de vision stéréoscopique.
Les perspectives linéaires Il s’agit d’exploiter le fait que les lignes parallèles semblent au loin converger (Huang et al., 2009). Le point de convergence est appelé point de fuite. Ainsi, en détectant ces lignes et le point de fuite, un gradient de profondeur peut être affecté à l’image.
L’accommodation oculaire Cet indice repose sur le fait que plus un objet est loin de la distance focale de la caméra, plus il est flou. L’inconvénient de cet indice est qu’il comporte une ambiguïté dans le sens. En effet, l’éloignement d’une région par rapport au plan focal n’indique pas si elle est en avant ou en arrière du plan focal (Szeliski, 2011). L’accommodation oculaire, souvent appelée focus/defocus, peut être utilisée pour générer la profondeur à partir d’une seule image, comme effectué par l’étude de Tang et al. (2013).
Interposition d’objets Une des façons de détecter l’interposition d’objets est la détection des jonctions en T. En effet, lorsque trois régions se superposent, formant une intersection de forme semblable à un T, il est plus probable que la région avec l’angle quasiment plat soit en avant des deux autres (Jia et al., 2012).
INTRODUCTION |