Universalite vs. variations a travers les ages, les langues et les sujets
De nombreuses etudes ont porte sur ce paradigme experimental. L’effet McGurk a ete teste dans de nombreuses langues differentes. Il apparait dans tous les langues ou il a ete teste: espagnol, allemand (Duran, 1995), italien (Bovo et al, 2009), neerlandais, chinois (Gelder et al, 1995), japonais (Sekiyama & Tohkura, 1993), hongrois (Grassegger, 1995), francais (Cathiard et al, 2001) et autres. La diminution significative de perception de taux d’effet McGurk a ete decrite pour les langues japonaise et chinoise en comparaison avec l’anglais, (Sekiyama & Tohkura, 1991), (Sekiyama, 1997), (Hisanaga et al, 2009). Pour expliquer ce phenomene, deux explications principales ont etait proposees. La premiere repose sur l’influence supposee de la culture japonaise et chinoise, qui prescrit d’eviter de regarder son interlocuteur en face, ce qui rendrait les sujets moins sensibles a l’influence visuelle. La deuxieme hypothese est linguistique et non culturelle. Elle s’appuie sur la difference de la structure tonale et syllabique entre ces deux langues et la langue de reference de l’effet McGurk, l’anglais, ainsi que sur l’absence de clusters consonantiques dans les langues asiatiques.
Les deux hypotheses restent considerees comme pertinentes a l’heure actuelle. La sensibilite des enfants prelinguistiques a l’effet McGurk a ete decrite dans le travail de Burnham et Dodd (Burnham & Dodd, 2004). Un groupe d’enfants de dix semaines, ≪ habitue ≫ a des stimuli McGurk ≪ ba ≫A + ≪ ga ≫V, ne manifestait pas de surprise a un stimulus audiovisuel coherent ≪ da ≫ ou ≪ tha ≫, mettant ainsi en evidence une capacite d’integration de type ≪ McGurk ≫ des cet age. Un groupe controle d’enfants ≪ habitues ≫ a des stimuli congruents ≪ ba ≫ ne presentait pas ce meme effet, ce qui a valide la conclusion des auteurs de l’existence d’un mecanisme d’integration de la parole audiovisuelle chez les enfants prelinguistiques. Des etudes ulterieures ont permis de mettre en evidence une augmentation de l’effet McGurk avec l’age (Sekiyama & Burnham, 2008). Enfin, il est important de considerer que l’effet McGurk depend du sujet (Schwartz, 2010), avec de fortes differences interindividuelles, certains sujets manifestant un effet McGurk significatif et d’autre un effet faible ou nul. De nombreuses recherches actuelles visent a chercher des correlats neurocognitifs de ces differences, portant notamment sur les caracteristiques de la fenetre d’integration audiovisuelle qui predirait la susceptibilite aux illusions audiovisuelles (Stevenson et al, 2012).
Variations dependant des caracteristiques des stimuli
Des mecanismes de fusion audiovisuelle apparentes a l’effet McGurk ont ete demontres dans un contexte syllabique CV ou VCV, mais egalement, avec des effets plus ou moins forts, dans le cas de voyelles (Summerfield & McGrath, 1984), (Lisker & Rossi, 1992), dans des mots (Dekle et al, 1992), des phrases (McGurk, 1981) et meme sur des stimuli non directement phonologiques comme des clicks qui sont reconnus comme des consonnes dans certaines langues africaines, mais qui sont consideres comme des evenements non phonetiques pour des sujets anglais (Brancazio et al, 2006). L’effet McGurk resiste a des incoherences audiovisuelles variees, telles que des discordances sur le sexe du locuteur entre visage et voix (Green et al, 1991) ou des differences de localisation spatiale entre le visage et la voix (Jones & Munhall, 1997), (Bertelson et al, 1994), (Colin et al, 2001). Par contre, l’effet McGurk depend du decalage temporel entre les signaux auditif et visuel selon une fenetre d’integration audiovisuelle qui presente la meme asymetrie et les memes caracteristiques que celle presentees precedemment (Munhall et al, 1996), (van Wassenhove et al, 2007) (voir Figure 10, montrant que l’effet McGurk est obtenu sur une gamme de delais allant de faibles avances de l’audio a des fortes avances du video, comme pour les scores de comprehension dans le bruit presentes precedemment). L’effet McGurk depend aussi du debit d’articulation (Colin & Radeau, 2003), (Munhall et al, 1996), ainsi l’effet McGurk est plus eleve dans le cas d’augmentation du debit auditif ou de ralentissement du debit visuel. Ceci peut-etre explique par le fait que le ralentissement du debit video laisse plus de temps pour lire sur les levres, et l’acceleration du debit audio reduit l’intelligibilite du signal, donnant ainsi plus de poids au signal visuel.
Modele d’identification separee et modeles de fusion bayesienne
Le deuxieme type est un ≪ modele d’identification separee ≫, qui suppose un recodage prealable de chaque modalite avant l’etape de fusion (Figure 11 (b)). Le recodage peut se faire sous forme de valeurs logiques, comme c’est le cas dans le modele VPAM (Vision:Place Audition:Manner) (McGurk & MacDonald, 1976), (Summerfield, 1987), ou sous forme probabiliste ou equivalente, comme c’est le cas dans le modele FLMP (Fuzzy-Logical Model of Perception) (Massaro, 1987), (Massaro, 1989). Dans ce type de modeles, l’integration des inputs auditif et visuel se passe donc a un niveau posterieur a la categorisation phonetique, les modeles correspondants sont donc baptises de modele a integration tardive. Dans le modele VPAM chaque modalite prend en charge son propre ensemble de caracteristiques phonetiques. A partir du signal video on extrait le lieu d’articulation tel que velaire, bilabial etc., et a partir du signal auditif on extrait le mode tel que consonantique, nasal, etc. Ces informations sont fournies au processus de fusion pour la categorisation.
La critique majeure du modele VPAM est la repartition stricte des roles du signal auditif et visuel, tandis que certaines caracteristiques devraient etre estimees a la fois visuellement et auditivement, a la fois pour le lieu et le mode. Ainsi, le modele VPAM ne peut rendre compte de l’effet McGurk (≪ ba-audio ≫ + ≪ ga-video ≫ donne une fusion ≪ da ≫ ou ≪ tha ≫), pour lequel ni le lieu (dans le cas du percept ≪ da ≫) ni meme le mode (dans le cas du percept ≪ tha ≫) ne correspondent aux donnees susceptibles d’etre fournies par l’audition (mode plosif) et la vision (lieu velaire). Cette faille est prise en compte dans le modele FLMP, ou chaque entree est comparee analogiquement a un prototype unimodal. Les resultats de cette evaluation monosensorielle sont fusionnes par un processus multiplicatif normalise : P___C__ _ a_v_ Σ_ a_v_ ou a est le taux de reponses en faveur de la categorie Ci fourni par l’entree auditive, v est le taux de reponses fourni par l’entree visuelle, et Pav le taux de reponses en faveur de la categorie Ci estime en sortie du processus de fusion audiovisuelle (Figure 12). Figure 12 – Modele FLMP de fusion audiovisuelle en perception de la parole. L’evaluation d’une source auditive Aj et visuelle Vj produit des valeurs aj et vj indiquant le degre de support de chaque source pour une categorie donnee. Le resultat final repose sur le produit de ces degres de support. Figure tiree de (Massaro, 1989). Le modele FLMP s’est avere tres populaire par sa simplicite et la possibilite de l’appliquer dans de nombreuses situations experimentales avec des resultats de predictions le plus souvent proches des observations empiriques.
C’est en realite un modele general qui permet d’effectuer la fusion de modalites differentes, pas necessairement audiovisuelles. Ce modele peut s’integrer dans la categorie plus generale encore des modeles de fusion bayesienne, s’appuyant sur une estimation de l’efficacite de chaque modalite par la theorie de l’integration basee sur le maximum de vraisemblance (Maximum likelyhood integration theory) pour determiner le poids de chaque modalite dans le processus de fusion intersensorielle, par exemple dans les experiences de perception visuo-haptique (Ernst & Banks, 2002), d’integration visuo–vestibulaire (Angelaki et al, 2011), de determination de la localisation des stimuli audiovisuels (Alais & Burr, 2004). Neanmoins, l’hypothese d’un processus de fusion audiovisuelle basee uniquement sur la sortie des processus de fusion auditive et visuelle sans prise en compte de facteurs de controle du processus de fusion est contestable. Ainsi, les donnees decrites precedemment sur la phenomenologie de l’effet McGurk ont conduit – ou pourraient conduire – a des variantes du FLMP integrant une ponderation des entrees du processus multiplicatif pour tenir compte de ces differents facteurs tels que la variabilite des sujets (Schwartz, 2010), le niveau de bruit (Berthommier, 2001), la langue (Sekiyama & Tohkura, 1991), (Sekiyama & Tohkura, 1993), ou l’attention (Schwartz et al, 2010).
Modele de recodage dans la modalite motrice, theories motrices et perceptuomotrices
La derniere architecture, le ≪ modele a recodage moteur ≫, s’inspire de la theorie motrice (Liberman & Mattingly, 1985) et suppose le recodage des deux modalites dans un format ni auditif ni visuel, mais amodal. Elle est egalement une architecture a integration precoce. Dans la version classique de la theorie motrice, Liberman et Mattingly (Liberman & Mattingly, 1985) defendent l’idee d’un traitement de la parole fonde sur un processus d’analyse-par-la-synthese. Les auteurs considerent que la perception et la production de la parole sont deux faces d’un meme processus. Dans la theorie motrice, la representation qui est impliquee a la fois dans la perception et dans la production est basee sur la configuration du conduit vocal et les processus moteurs sous-jacents, ce qui peut etre resume sous le terme de ≪ format moteur ≫. Or, les gestes de la parole sont egalement visibles, donc la modalite visuelle peut egalement etre recodee dans un format moteur. Dans une version ulterieure de leur theorie, Liberman et Mattingly proposent que le recodage prenne en realite la forme d’une representation des intentions motrices, plutot que du geste articulatoire lui-meme. Ces intentions motrices seraient formees specifiquement dans le cerveau du locuteur et un module specialise permettrait a l’auditeur de reconstruire cette representation motrice avec un minimum d’effort.
L’information recodee serait la base de la categorisation. Liberman et Mattingly defendent l’idee que ce processus de traitement est specifique a la parole, tandis que dans le cas de signaux acoustiques non langagiers la perception serait directe et non mediatisee par des processus de recodage moteur. Cependant, une collegue de Liberman et Mattingly au sein des Laboratoires Haskins, Carol Fowler, a propose quant a elle une theorie realiste directe (Fowler, 1986). Elle pense comme Liberman et Mattingly qu’il existe un processus de recodage moteur, mais elle conteste l’idee que ce processus serait specifique a la parole. Sa conception est qu’un auditeur recupere la cause physique de facon generale, quel que soit le processus (langagier ou non) et la modalite perceptive impliquee.
Dans le cas de la parole la cause du signal peut-etre la configuration articulatoire, dans le cas des autres signaux on recupere la forme de l’objet. Plus recemment, Schwartz et collegues (Schwartz et al, 2010) ont propose une theorie perceptuo-motrice, PACT (≪ Perception for Action Control Theory ≫). Ils integrent la necessite de considerer l’existence d’interactions entre perception et action. Mais ils mettent egalement en avant l’existence de processus perceptifs pour caracteriser les gestes, ainsi que le demontrent notamment les mecanismes sous-jacents a l’organisation des systemes sonores des langues du monde, avec des processus de determination des frontieres entre categories phonetiques acoustiquement regles sur la base de la dispersion perceptive ou des invariances sensori-motrices naturelles. Pour Schwartz et coll. la perception forme l’action et l’action met des contraintes sur la perception. Par rapport a la theorie motrice classique, la PACT insiste sur le fait que l’etape de categorisation/decision doit en premier lieu prendre en compte les caracteristiques auditives et pas simplement les configurations articulatoires. Les percepts acoustiques sont faconnes par les connaissances articulatoires et l’unite de communication est une unite perceptuo-motrice. A la base cette theorie est issue d’une reflexion sur la modalite auditive, mais elle a egalement pris en compte des recherches du groupe sur le role de la modalite visuelle (Sato et al, 2007), (Sato et al, 2007), (Basirat et al, 2012).Le schema general de la PACT est represente sur la Figure 14.
Remerciements
|
