Processus de fusion audiovisuelle en perception de parole

Universalite vs. variations a travers les ages, les langues et les sujets

De nombreuses etudes ont porte sur ce paradigme experimental. L’effet McGurk a ete teste dans de nombreuses langues differentes. Il apparait dans tous les langues ou il a ete teste: espagnol, allemand (Duran, 1995), italien (Bovo et al, 2009), neerlandais, chinois (Gelder et al, 1995), japonais (Sekiyama & Tohkura, 1993), hongrois (Grassegger, 1995), francais (Cathiard et al, 2001) et autres. La diminution significative de perception de taux d’effet McGurk a ete decrite pour les langues japonaise et chinoise en comparaison avec l’anglais, (Sekiyama & Tohkura, 1991), (Sekiyama, 1997), (Hisanaga et al, 2009). Pour expliquer ce phenomene, deux explications principales ont etait proposees. La premiere repose sur l’influence supposee de la culture japonaise et chinoise, qui prescrit d’eviter de regarder son interlocuteur en face, ce qui rendrait les sujets moins sensibles a l’influence visuelle. La deuxieme hypothese est linguistique et non culturelle. Elle s’appuie sur la difference de la structure tonale et syllabique entre ces deux langues et la langue de reference de l’effet McGurk, l’anglais, ainsi que sur l’absence de clusters consonantiques dans les langues asiatiques.

Les deux hypotheses restent considerees comme pertinentes a l’heure actuelle. La sensibilite des enfants prelinguistiques a l’effet McGurk a ete decrite dans le travail de Burnham et Dodd (Burnham & Dodd, 2004). Un groupe d’enfants de dix semaines, ≪ habitue ≫ a des stimuli McGurk ≪ ba ≫A + ≪ ga ≫V, ne manifestait pas de surprise a un stimulus audiovisuel coherent ≪ da ≫ ou ≪ tha ≫, mettant ainsi en evidence une capacite d’integration de type ≪ McGurk ≫ des cet age. Un groupe controle d’enfants ≪ habitues ≫ a des stimuli congruents ≪ ba ≫ ne presentait pas ce meme effet, ce qui a valide la conclusion des auteurs de l’existence d’un mecanisme d’integration de la parole audiovisuelle chez les enfants prelinguistiques. Des etudes ulterieures ont permis de mettre en evidence une augmentation de l’effet McGurk avec l’age (Sekiyama & Burnham, 2008). Enfin, il est important de considerer que l’effet McGurk depend du sujet (Schwartz, 2010), avec de fortes differences interindividuelles, certains sujets manifestant un effet McGurk significatif et d’autre un effet faible ou nul. De nombreuses recherches actuelles visent a chercher des correlats neurocognitifs de ces differences, portant notamment sur les caracteristiques de la fenetre d’integration audiovisuelle qui predirait la susceptibilite aux illusions audiovisuelles (Stevenson et al, 2012).

Variations dependant des caracteristiques des stimuli

Des mecanismes de fusion audiovisuelle apparentes a l’effet McGurk ont ete demontres dans un contexte syllabique CV ou VCV, mais egalement, avec des effets plus ou moins forts, dans le cas de voyelles (Summerfield & McGrath, 1984), (Lisker & Rossi, 1992), dans des mots (Dekle et al, 1992), des phrases (McGurk, 1981) et meme sur des stimuli non directement phonologiques comme des clicks qui sont reconnus comme des consonnes dans certaines langues africaines, mais qui sont consideres comme des evenements non phonetiques pour des sujets anglais (Brancazio et al, 2006). L’effet McGurk resiste a des incoherences audiovisuelles variees, telles que des discordances sur le sexe du locuteur entre visage et voix (Green et al, 1991) ou des differences de localisation spatiale entre le visage et la voix (Jones & Munhall, 1997), (Bertelson et al, 1994), (Colin et al, 2001). Par contre, l’effet McGurk depend du decalage temporel entre les signaux auditif et visuel selon une fenetre d’integration audiovisuelle qui presente la meme asymetrie et les memes caracteristiques que celle presentees precedemment (Munhall et al, 1996), (van Wassenhove et al, 2007) (voir Figure 10, montrant que l’effet McGurk est obtenu sur une gamme de delais allant de faibles avances de l’audio a des fortes avances du video, comme pour les scores de comprehension dans le bruit presentes precedemment). L’effet McGurk depend aussi du debit d’articulation (Colin & Radeau, 2003), (Munhall et al, 1996), ainsi l’effet McGurk est plus eleve dans le cas d’augmentation du debit auditif ou de ralentissement du debit visuel. Ceci peut-etre explique par le fait que le ralentissement du debit video laisse plus de temps pour lire sur les levres, et l’acceleration du debit audio reduit l’intelligibilite du signal, donnant ainsi plus de poids au signal visuel.

Modele d’identification separee et modeles de fusion bayesienne

Le deuxieme type est un ≪ modele d’identification separee ≫, qui suppose un recodage prealable de chaque modalite avant l’etape de fusion (Figure 11 (b)). Le recodage peut se faire sous forme de valeurs logiques, comme c’est le cas dans le modele VPAM (Vision:Place Audition:Manner) (McGurk & MacDonald, 1976), (Summerfield, 1987), ou sous forme probabiliste ou equivalente, comme c’est le cas dans le modele FLMP (Fuzzy-Logical Model of Perception) (Massaro, 1987), (Massaro, 1989). Dans ce type de modeles, l’integration des inputs auditif et visuel se passe donc a un niveau posterieur a la categorisation phonetique, les modeles correspondants sont donc baptises de modele a integration tardive. Dans le modele VPAM chaque modalite prend en charge son propre ensemble de caracteristiques phonetiques. A partir du signal video on extrait le lieu d’articulation tel que velaire, bilabial etc., et a partir du signal auditif on extrait le mode tel que consonantique, nasal, etc. Ces informations sont fournies au processus de fusion pour la categorisation.

La critique majeure du modele VPAM est la repartition stricte des roles du signal auditif et visuel, tandis que certaines caracteristiques devraient etre estimees a la fois visuellement et auditivement, a la fois pour le lieu et le mode. Ainsi, le modele VPAM ne peut rendre compte de l’effet McGurk (≪ ba-audio ≫ + ≪ ga-video ≫ donne une fusion ≪ da ≫ ou ≪ tha ≫), pour lequel ni le lieu (dans le cas du percept ≪ da ≫) ni meme le mode (dans le cas du percept ≪ tha ≫) ne correspondent aux donnees susceptibles d’etre fournies par l’audition (mode plosif) et la vision (lieu velaire). Cette faille est prise en compte dans le modele FLMP, ou chaque entree est comparee analogiquement a un prototype unimodal. Les resultats de cette evaluation monosensorielle sont fusionnes par un processus multiplicatif normalise : P___C__ _ a_v_ Σ_ a_v_ ou a est le taux de reponses en faveur de la categorie Ci fourni par l’entree auditive, v est le taux de reponses fourni par l’entree visuelle, et Pav le taux de reponses en faveur de la categorie Ci estime en sortie du processus de fusion audiovisuelle (Figure 12). Figure 12 – Modele FLMP de fusion audiovisuelle en perception de la parole. L’evaluation d’une source auditive Aj et visuelle Vj produit des valeurs aj et vj indiquant le degre de support de chaque source pour une categorie donnee. Le resultat final repose sur le produit de ces degres de support. Figure tiree de (Massaro, 1989). Le modele FLMP s’est avere tres populaire par sa simplicite et la possibilite de l’appliquer dans de nombreuses situations experimentales avec des resultats de predictions le plus souvent proches des observations empiriques.

C’est en realite un modele general qui permet d’effectuer la fusion de modalites differentes, pas necessairement audiovisuelles. Ce modele peut s’integrer dans la categorie plus generale encore des modeles de fusion bayesienne, s’appuyant sur une estimation de l’efficacite de chaque modalite par la theorie de l’integration basee sur le maximum de vraisemblance (Maximum likelyhood integration theory) pour determiner le poids de chaque modalite dans le processus de fusion intersensorielle, par exemple dans les experiences de perception visuo-haptique (Ernst & Banks, 2002), d’integration visuo–vestibulaire (Angelaki et al, 2011), de determination de la localisation des stimuli audiovisuels (Alais & Burr, 2004). Neanmoins, l’hypothese d’un processus de fusion audiovisuelle basee uniquement sur la sortie des processus de fusion auditive et visuelle sans prise en compte de facteurs de controle du processus de fusion est contestable. Ainsi, les donnees decrites precedemment sur la phenomenologie de l’effet McGurk ont conduit – ou pourraient conduire – a des variantes du FLMP integrant une ponderation des entrees du processus multiplicatif pour tenir compte de ces differents facteurs tels que la variabilite des sujets (Schwartz, 2010), le niveau de bruit (Berthommier, 2001), la langue (Sekiyama & Tohkura, 1991), (Sekiyama & Tohkura, 1993), ou l’attention (Schwartz et al, 2010).

Modele de recodage dans la modalite motrice, theories motrices et perceptuomotrices

La derniere architecture, le ≪ modele a recodage moteur ≫, s’inspire de la theorie motrice (Liberman & Mattingly, 1985) et suppose le recodage des deux modalites dans un format ni auditif ni visuel, mais amodal. Elle est egalement une architecture a integration precoce. Dans la version classique de la theorie motrice, Liberman et Mattingly (Liberman & Mattingly, 1985) defendent l’idee d’un traitement de la parole fonde sur un processus d’analyse-par-la-synthese. Les auteurs considerent que la perception et la production de la parole sont deux faces d’un meme processus. Dans la theorie motrice, la representation qui est impliquee a la fois dans la perception et dans la production est basee sur la configuration du conduit vocal et les processus moteurs sous-jacents, ce qui peut etre resume sous le terme de ≪ format moteur ≫. Or, les gestes de la parole sont egalement visibles, donc la modalite visuelle peut egalement etre recodee dans un format moteur. Dans une version ulterieure de leur theorie, Liberman et Mattingly proposent que le recodage prenne en realite la forme d’une representation des intentions motrices, plutot que du geste articulatoire lui-meme. Ces intentions motrices seraient formees specifiquement dans le cerveau du locuteur et un module specialise permettrait a l’auditeur de reconstruire cette representation motrice avec un minimum d’effort.

L’information recodee serait la base de la categorisation. Liberman et Mattingly defendent l’idee que ce processus de traitement est specifique a la parole, tandis que dans le cas de signaux acoustiques non langagiers la perception serait directe et non mediatisee par des processus de recodage moteur. Cependant, une collegue de Liberman et Mattingly au sein des Laboratoires Haskins, Carol Fowler, a propose quant a elle une theorie realiste directe (Fowler, 1986). Elle pense comme Liberman et Mattingly qu’il existe un processus de recodage moteur, mais elle conteste l’idee que ce processus serait specifique a la parole. Sa conception est qu’un auditeur recupere la cause physique de facon generale, quel que soit le processus (langagier ou non) et la modalite perceptive impliquee.

Dans le cas de la parole la cause du signal peut-etre la configuration articulatoire, dans le cas des autres signaux on recupere la forme de l’objet. Plus recemment, Schwartz et collegues (Schwartz et al, 2010) ont propose une theorie perceptuo-motrice, PACT (≪ Perception for Action Control Theory ≫). Ils integrent la necessite de considerer l’existence d’interactions entre perception et action. Mais ils mettent egalement en avant l’existence de processus perceptifs pour caracteriser les gestes, ainsi que le demontrent notamment les mecanismes sous-jacents a l’organisation des systemes sonores des langues du monde, avec des processus de determination des frontieres entre categories phonetiques acoustiquement regles sur la base de la dispersion perceptive ou des invariances sensori-motrices naturelles. Pour Schwartz et coll. la perception forme l’action et l’action met des contraintes sur la perception. Par rapport a la theorie motrice classique, la PACT insiste sur le fait que l’etape de categorisation/decision doit en premier lieu prendre en compte les caracteristiques auditives et pas simplement les configurations articulatoires. Les percepts acoustiques sont faconnes par les connaissances articulatoires et l’unite de communication est une unite perceptuo-motrice. A la base cette theorie est issue d’une reflexion sur la modalite auditive, mais elle a egalement pris en compte des recherches du groupe sur le role de la modalite visuelle (Sato et al, 2007), (Sato et al, 2007), (Basirat et al, 2012).Le schema general de la PACT est represente sur la Figure 14.

Table des matières

Remerciements
Introduction
Partie I – De la parole audiovisuelle à la question du liage : un état de l’art pour une stratégie expérimentale
Chapitre 1. La parole audiovisuelle
1.1 La parole est audiovisuelle
1.2 Rôle d’un signal visuel
1.2.1 Redondance et complémentarité
1.2.2 Amélioration de la compréhension du message
1.2.3 Détection de la parole dans le bruit
1.2.4 Prédiction du son par l’image
1.3 L’effet McGurk
1.3.1 Universalité vs. variations à travers les âges, les langues et les sujets
1.3.2 Variations dépendant des caractéristiques des stimuli
1.3.3 Automaticité de l’effet McGurk
1.4 Conclusion
Chapitre 2. Processus de fusion audiovisuelle en perception de parole
2.1 Les architectures cognitives
2.1.1 Modèle d’identification directe
2.1.2 Modèle d’identification séparée et modèles de fusion bayésienne
2.1.3 Modèle de recodage dans la modalité dominante
2.1.4 Modèle de recodage dans la modalité motrice, théories motrices et perceptuomotrices
2.2 Les processus de contrôle
2.3 Les architectures neuroanatomiques sous-jacentes
2.3.1 Le modèle classique de Wernicke-Lichtheim-Geshwind
2.3.2 Du système miroir au modèle à deux voies
2.3.3 Le réseau neuroanatomique de la perception audiovisuelle de la parole
2.3.4 Le modèle de Skipper
2.3.5 Les mécanismes d’interaction multisensorielle de Senkowski
2.4 Conclusion
Chapitre 3. Un mécanisme de liage audiovisuel préalable à la fusion ?
3.1 Eléments de mise en évidence d’un niveau d’interaction précoce
3.1.1 Interactions audiovisuelles précoces en électrophysiologie
3.1.2 Facilitation audiovisuelle de la détection de traits phonétiques induisant un gain de reconnaissance
3.1.3 Influence réciproque de la modalité auditive sur la perception visuelle
3.2 Analyse des scènes perceptives
3.2.1 La psychologie de la forme (Gestalt
3.2.2 Bregman et l’analyse des scènes auditives
3.2.3 Le modèle de Treisman
3.2.4 Mécanismes neurophysiologiques sous-jacents
3.3 Corrélations audiovisuelles
3.3.1 Yehia et collègues
3.3.2 Barker et Berthommier
3.3.3 Grant et collègues
3.3.4 Chandrasekaran et collègues
3.3.5 Jiang et collègues
3.3.6 Berthommier
3.4 Conclusion
Chapitre 4. Stratégie expérimentale et plan du travail
4.1 Une hypothèse
4.2 Un paradigme
4.3 Un programme expérimental
Partie II – Mise en évidence comportementale de l’existence d’un processus de liage audiovisuel conditionnant la fusion
Chapitre 5. Mise en place de la méthodologie sur une expérience princeps
5.1 Introduction
5.2 Paradigme expérimental
5.3 Préparation des matériaux expérimentaux
5.3.1 Enregistrement
5.3.2 Analyse et montage des données audio
5.3.3 Analyse et montage des données vidéo
5.3.4 Montage audiovisuel
5.4 Passation de l’expérience
5.4.1 Organisation du test
5.4.2 Consignes et exécution de l’expérience
5.5 Méthode d’analyse des résultats
5.5.1 Détermination d’une zone de réponses valides
5.5.2 Analyse des réponses
5.5.3 Analyse des temps de réaction
5.6 Conclusion
Chapitre 6. Expérience 1 : première mise en évidence d’un effet de contexte
6.1 Objectifs et hypothèses
6.2 Méthodologie
6.2.1 Stimuli
6.2.2 Plan d’expérience
6.2.3 Sujets
6.3 Résultats
6.3.1 Scores bruts
6.3.2 Analyses statistiques des pourcentages de réponse
6.3.3 Temps de réponse
6.4 Conclusion
Chapitre 7. Expérience 2 : est-ce qu’un stimulus d’alerte temporelle influence le liage ?
7.1 Objectifs et hypothèses
7.2 Méthodologie
7.2.1 Principe
7.2.2 Stimuli
7.2.3 Plan d’expérience
7.2.4 Sujets
7.3 Résultats
7.3.1 Scores bruts
7.3.2 Analyses statistiques des pourcentages de réponse
7.4 Discussion
Chapitre 8. Expérience 3 : évaluation perceptive des cibles isolées
8.1 Objectifs et hypothèses
8.2 Méthodologie
8.2.1 Principe
8.2.2 Stimuli
8.2.3 Plan d’expérience
8.2.4 Sujets
8.3 Résultats
8.3.1 Scores bruts
8.3.2 Analyses statistiques des pourcentages de réponse
8.4 Conclusion
Chapitre 9. Expérience 4 : Validation de l’effet contexte
9.1 Objectifs et hypothèses
9.2 Méthodologie
9.2.1 Principe
9.2.2 Stimuli
9.2.3 Plan d’expérience
9.2.4 Sujets
9.3 Résultats
9.3.1 Scores bruts
9.3.2 Analyses statistiques des pourcentages de réponse
9.3.3 Analyse des temps de réponses
9.4 Discussion
Partie III – Caractérisation du processus du liage
Chapitre 10. Expérience 5 : Décomposition de l’incohérence sur les dimensions phonétique et temporelle
10.1 Objectifs et hypothèses
10.2 Méthodologie
10.2.1 Principe
10.2.2 Stimuli
10.2.3 Plan d’expérience
10.2.4 Sujets
10.3 Résultats
10.3.1 Scores bruts
10.3.2 Analyses statistiques des pourcentages de réponse
10.4 Discussion
Chapitre 11. Expérience 6. Caractérisation de la dynamique temporelle
11.1 Objectifs et hypothèses
11.2 Méthodologie
11.2.1 Principe
11.2.2 Stimuli
11.2.3 Plan d’expérience
11.2.4 Sujets
11.3 Résultats
11.3.1 Scores bruts
11.3.2 Analyses statistiques des pourcentages de réponse
11.3.3 Temps de réponses
11.4 Discussion
Chapitre 12. Expérience 7. Mise en évidence d’un processus de reliage
12.1 Objectifs et hypothèses
12.2 Méthodologie
12.2.1 Principe
12.2.2 Stimuli
12.2.3 Plan d’expérience
12.2.4 Sujets
12.3 Résultats
12.3.1 Scores bruts
12.3.2 Analyses statistiques des pourcentages de réponse
12.3.3 Temps de réponse
12.4 Discussion
Partie IV – Synthèse
Chapitre 13. Discussion
13.1 Résumé des principaux résultats
13.2 Interprétation des résultats
13.2.1 Mise en évidence d’un mécanisme de liage qui module la fusion audiovisuelle
13.2.2 Architecture à deux étages
13.3 Corrélats neuroanatomiques et neurophysiologiques
13.4 Perspectives
13.4.1 Perspectives expérimentales
13.4.2 Perspectives applicatives
Liste des publications associées à cette thèse
Travaux cités