La reconnaissance visuelle de la parole

La reconnaissance visuelle de la parole

Visage complet ou indices visuels ?

Percevoir le visage d’un locuteur apporte bien un gain d’intelligibilité en perception de la parole. Mais quelles sont les parties qui contribuent le plus à ce gain ? Pour répondre à cette question, rappelons d’une part que dans la majorité des expériences décrites au chapitre 1, notamment celles sur la perception visuelle de la parole, le visage complet (et dans certains cas les épaules et la tête) était présenté aux sujets testés. D’autre part, des études ont montré que la région de la bouche transmettait la plus grande partie de l’information visuelle de parole. D’autres études allaient jusqu’à suggérer de se contenter seulement des lèvres. Dans cette section, nous présentons les résultats de quelques études comparant différentes conditions de présentation des stimuli visuels. Summerfield (1979) a comparé les gains d’intelligibilité de différents types d’information visuelle. Il a présenté à 10 sujets (âgés de 15 à 27 ans) des stimuli audiovisuels produits par un locuteur anglais sous forme de phrases, mélangés avec d’autres signaux de parole, dans cinq conditions différentes: (i) signal acoustique seul, (ii) signal acoustique+ le visage du front à la mandibule, (iii) signal acoustique + les lèvres seules, (iv) signal acoustique + 4 points lumineux placés autour des lèvres sur les coins et sur les intersections de l’axe de symétrie avec les lèvres supérieure et inférieure,(v) et signal acoustique + un cercle dont le diamètre varie selon l’amplitude du signal acoustique non bruit´e. Sous ces différentes conditions les sujets devaient identifier les phrases testées et les noter sur papier. Les résultats obtenus dans cette expérience sont présentées par la table 2.1. Condition Audio seul Audio + visage complet Audio + lèvres Audio + 4 points Audio + cercle Pourcentage moyen (%) 22.7 65.3 54 30.7 20.8 Ecart type 8.59 19.7 14.5 16.2 10 Table 02.1 – Scores d’identification obtenus par Summerfield (1979) dans cinq conditions de présentation des stimuli. De ces résultats nous pouvons tirer quelques constats intéressants. Tout d’abord, les deux informations visuelles dans les conditions (iv) et (v) ne semblent apporter aucune information aidant à comprendre les phrases bruitées. Les différences entre ces deux conditions et la condition (i) sont en effet, selon l’auteur, non significatives. Ensuite, il est évident que la 30 présentation de l’image complète ou de l’image des lèvres est bénéfique pour la compréhension du message. Dans les deux conditions, les scores d’identification augmentent en moyenne de plus de 31% par rapport aux scores dans la condition audio seule. Et enfin, les lèvres seules portent une information importante mais restent encore inférieures à celle portée par le visage complet. Ces deux derniers constats ont été confirmés par d’autres études (Le Goff et al. 1995, 1996; Adjoudani et al. 1994). Globalement, le visage complet est l’indice visuel qui apporte le plus d’information visuelle. Les lèvres portent une grande partie de l’information visuelle équivalente en quantité à peu près aux deux tiers de celle transmise par le visage complet. L’étude de Summerfield (Summerfield, 1983) a porté sur les conditions de présentation des indices visuels pour que l’information visuelle contribue plus pertinemment à la perception audiovisuelle de la parole. Ainsi, il suggérait les conditions suivantes : – une distance de 1,5m, – une luminance suffisante, – le corps et les bras visibles aussi, – pas de moustache ni de barbe sur le visage, – et un maquillage des lèvres pour augmenter le contraste.

Localisation et suivi de visages

Comme nous le verrons par la suite, nous avons été amenés à enregistrer un corpus de parole audiovisuelle et avons choisi de cadrer le locuteur en limitant la prise de vue à la zone de la bouche. Cette prise de vue nous a semblé intéressante car elle permet de disposer d’une bonne résolution au niveau de la bouche et d’en détecter les mouvements même s’ils sont réduits. Cependant, le choix de filmer en gros plan la région des lèvres n’est pas neutre. Il impose d’effectuer une localisation approximative de la bouche de façon automatique et fiable, puis son suivi, non seulement dans des conditions de laboratoire, mais également pour des environnements plus variables, ce qui nous a amené à une étude bibliographique de faisabilité. En effet, la localisation de visages est le sujet de nombreuses études car les applications à ces recherches sont nombreuses : en plus de la reconnaissance automatique de parole audiovisuelle qui est notre principal centre d’intérêt, ces recherches s’appliquent à la reconnaissance automatique du locuteur et, plus généralement, à la vérification d’identité à partir du visage sans que le sujet ne parle (domaine de la biométrie).  À l’exception des travaux de (Shdaifat et al. 2001), qui localisent directement la bouche d’un locuteur dans une image, la localisation automatique de la région de la bouche se décompose généralement en deux étapes : dans un premier temps, le visage est localisé dans l’image, puis une localisation plus précise de la bouche est effectuée sur ce visage. Pour localiser les visages, deux types d’approches sont utilisées : des approches globales qui considèrent le visage comme un tout ayant une « apparence » particulière, et des approches par éléments qui détectent un certain nombre d’éléments du visage dans l’image, pour le localiser. Dans cette section, nous aborderons tout d’abord la question de la localisation de visages à travers des deux approches précédentes, puis nous passerons en revue quelques systèmes de suivi. 

Localisation de visages

La localisation de visages dans une image revient généralement à étiqueter les points de l’image suivant deux classes : le(s) visage(s) et le reste de l’image (qui n’est pas nécessairement uniforme). Dans tous les travaux que nous avons rencontrés pendant notre étude bibliographique, à l’exception de (Dai and Nakano 1996) et de (Yang and Waibe 1996), qui traitent des images contenant trois visages, ainsi que dans (Senior 1999) où, grâce à la multi-résolution, des visages d’échelles différentes peuvent être localisés, cette tâche est ramenée à une segmentation de l’image en deux zones : le visage et le fond, les images traitées ne contenant qu’un seul visage. Ceci peut sembler être une limite, mais dans la pratique, les images sur lesquelles il est possible d’étudier les mouvements des lèvres du locuteur rentrent généralement dans ce cadre contraint. Plusieurs approches ont été étudiées : (Benoît et al. 1998) les séparaient en deux catégories principales, celles utilisant la couleur, et celles reposant sur la détection d’éléments du visage. Cette catégorisation peut être légèrement affinée : nous proposons d’étudier le fonctionnement de méthodes de détection de visages reposant dans un premier temps sur une utilisation de la couleur avec des contraintes définies a priori par les auteurs, puis définies statistiquement. Par la suite, nous examinerons quelques approches reposant sur la détection d’éléments faciaux. Enfin, nous verrons brièvement que l’information dynamique (mouvement) peut également être utilisée. Nous constaterons à cette occasion que de nombreux systèmes utilisent une combinaison des différentes approches

Approches couleur

Dans cette première partie, nous allons passer en revue quelques méthodes de localisation de visages utilisant l’information couleur sous des formes variées et basées sur des critères a priori. Les chercheurs faisant appel à ces méthodes utilisent un espace couleur particulier permettant de faire ressortir l’information de teinte et déterminent des valeurs de seuils pour séparer les zones de peau du reste, empiriquement, à partir d’exemples. Sobottka et Pitas (1996) utilisent l’espace de représentation couleur (H, S, V) et segmentent l’image en régions en la « filtrant » (passe-bande) en fonction des informations de teinte (H) et de saturation (S). Les pixels i retenus ont une saturation telle que 0.23 ≤ Si ≤ 0.68, et une teinte telle que 0o ≤ Hi ≤ 50o . Des régions sont formées, puis combinées à partir des points candidats. Ce premier « filtrage» laisse passer de nombreux faux-positifs. Le visage ayant une forme approximativement elliptique, pour déterminer la zone la plus vraisemblable, des ellipses sont utilisées pour diminuer à nouveau le nombre de zones (de visage) candidates. Enfin, des éléments faciaux (yeux et bouche, décrits par les auteurs comme des zones sombres) sont recherchés en utilisant l’information d’intensité. En fonction des éléments trouvés et de leurs positions relatives à l’intérieur de la région candidate, le visage et la position de ces éléments seront localisés.

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *