Étude multidimensionnelle de l’effort d’écoute en
situations multilocuteurs
Le parcours du son de l’oreille au cerveau
Le parcours du son de l’oreille au cerveau peut être résumé en cinq étapes principales. La première étape correspond à l’oreille externe composée du pavillon et du conduit auditif externe (CAE) ; (Figure 1.A). La fonction de l’oreille externe est de diriger les sons vers l’oreille moyenne. Elle joue également un rôle essentiel dans la localisation auditive en modifiant le spectre des ondes sonores selon leur angle d’incidence. Ces modifications sont reconnues par le système auditif pour situer la source sonore dans l’espace en combinaison avec d’autres indices liés aux différences de temps d’arrivée et d’intensité des ondes sonores entre les deux oreilles. Les HRTFs (de l’anglais Head Related Transfer Function) peuvent être capturées via la mesure de la fonction de transfert liée à la tête (Wightman & Kistler, 1989). Filtrer un signal auditif présenté sous casque avec des HRTFs produit la sensation de percevoir ce signal comme provenant d’une position précise de l’espace. Le CAE protège la délicate membrane tympanique du froid, de la saleté et de la déshydratation, en expulsant la saleté et la poussière par le cérumen. La deuxième étape coïncide avec l’arrivée du son à la membrane tympanique dans l’oreille moyenne (Figure 1.B). Le tympan, en vibrant, transmet les ondes sonores aux trois osselets : le marteau, l’enclume et l’étrier. Le mouvement des trois osselets amplifie les vibrations du tympan qui atteignent l’oreille interne. Figure 1 : Dessin de l’appareil auditif. L’appareil auditif humain se compose de l’oreille externe, formée par le pavillon et le conduit auditif externe (A), de l’oreille moyenne, qui contient la chaîne des osselets (B), et de la cochlée formant avec le vestibule, l’oreille interne (C) ; (Goldstein, 2008). La troisième étape correspond donc à l’arrivée du son à l’oreille interne (Figure 1.C). L’oreille interne, remplie de liquides, comprend la cochlée, organe de l’audition, et le vestibule, organe de l’équilibre. Elle est composée de trois canaux contigus et parallèles, enroulés en spirale depuis la base jusqu’à l’apex : la rampe vestibulaire, le canal cochléaire, et la rampe tympanique. Les deux rampes, remplies de liquide périlymphatique, sont en continuité à l’apex de la cochlée au niveau de l’hélicotréma. À l’intérieur du canal cochléaire, plongé dans le liquide endolymphatique, se trouve l’organe de Corti qui contient les cellules sensorielles de l’audition (Figure 2) —c’est l’origine du message nerveux. Les cellules sensorielles sont de deux types : les cellules ciliées internes (CCI) et les cellules ciliées externes (CCE). On dénombre environ 3500 CCI et entre 10000 et 12000 CCE réparties respectivement sur une et trois rangées (Ashmore, 2008). Lanzilotti Cosima – Thèse de doctorat – 2021 26 Figure 2 : La cochlée et l’organe de Corti. Les cellules sensorielles auditives se trouvent dans l’organe de Corti entre les membranes basilaire et tectoriale. Les cellules ciliées externes (CCE) ont leurs cils encastrés dans la membrane tectoriale. Ils sont cisaillés lors du mouvement de la membrane basilaire, ce qui provoque l’activation des CCE qui facilite l’activation des cellules ciliées internes (CCI). Les CCI activées émettent au niveau du nerf auditif des messages nerveux codant certaines caractéristiques du signal sonore (Goldstein, 2008). L’arrivée du son au tronc cérébral constitue la quatrième étape du parcours du son et le premier stade du son à l’intérieur du cerveau. À ce stade, les sons sont déchiffrés et leur durée, leur intensité et leur fréquence sont déterminées. L’étape suivante se situe au niveau du thalamus qui collecte toutes les informations perçues par les sens, à l’exception de l’odorat. Le thalamus interprète les informations et les transmet au cortex cérébral, correspondant à la dernière étape. Le message sonore est alors en grande partie déchiffré, mais le cortex cérébral ajoute une signification aux sons. Ici, les sons sont reconnus et mémorisés. Cette région du cortex cérébral, appelée cortex auditif, intègre aussi les souvenirs ou les émotions liés aux sons qui vont donner une certaine coloration idiosyncrasique en fonction de chaque expérience.
Ségrégation des flux sonores
Au cours du traitement de l’information sonore permettant la compréhension d’une voix cible dans des situations d’écoute complexe, la première étape consiste à séparer les différents flux sonores. Les différents flux sonores présents dans la scène auditive sont constitués de plusieurs objets sonores. Ces derniers sont reconnus et identifiés par notre cerveau grâce à une véritable analyse de la scène auditive (Bregman, 2009). En effet, ce qui n’est au départ qu’un ensemble Lanzilotti Cosima – Thèse de doctorat – 2021 27 de fréquences sonores indistinctes et chaotiques, est transformé par le cerveau en objets sonores reconnaissables et dotés d’une signification précise. Un objet sonore peut être défini comme une estimation perceptuelle des entrées sensorielles qui proviennent d’un élément physique distinct dans le monde externe (Shinn-Cunningham, 2008). Par exemple, la structure spectro-temporelle des objets sonores détermine la segmentation de ceux-ci sur de courtes échelles de temps (c.-à-d., la formation de syllabes). Les caractéristiques d’ordre supérieur (c.-à-d., le timbre, la hauteur, la localisation) déterminent la façon dont ces objets sonores sont organisés sur des échelles de temps plus longues qui vont former les flux sonores (Shinn-Cunningham, 2008). Cette ségrégation des flux sonores est indispensable pour que l’auditeur puisse se concentrer sur une voix cible.
Masquage informationnel et masquage énergétique
L’auditeur peut se trouver dans un contexte où le bruit interfère avec la compréhension de la voix cible (appelé speech-in-noise en anglais pour parole dans le bruit) ou dans un contexte où d’autres messages interfèrent avec la compréhension de la voix cible (appelé speech-in-speech en anglais pour parole dans la parole). On parle de masquage énergétique dans le premier cas et de masquage informationnel dans le second (Brungart, 2001). Ces interférences peuvent compromettre la compréhension de la voix cible lorsqu’elles sont suffisamment fortes. Lorsque les propriétés spectro-temporelles des sons en entrée (voix cible et masque) se superposent et deviennent inaudibles, cela crée du masquage informationnel. Dans le masquage informationnel, les informations sont audibles mais non distinguables dans la mesure où elles ne peuvent pas être séparées et attribuées à un locuteur précis. Ihlefeld & Shinn-Cunningham (2008) indiquent que dans une situation de masquage informationnel les participants reportent rarement des mots absents du mélange sonore. Les participants se trompent généralement en rapportant un mélange de mots de différents locuteurs (erreurs de mélange) ou en reportant tous les mots du mauvais locuteur (erreurs de masquage). Par ailleurs, Nakai et al. (2005) ont utilisé une tâche de speech-in-speech dans laquelle ils demandaient aux participants de suivre une histoire qui pouvait être masquée par le même locuteur ou par un locuteur de sexe différent. Le masquage par le même locuteur était la condition la plus difficile du fait de la similarité (c.-àd., même genre) des locuteurs. Lanzilotti Cosima – Thèse de doctorat – 2021 28 La ségrégation des voix repose sur la disponibilité de plusieurs indices sonores qui peuvent être à disposition de l’auditeur (Bronkhorst, 2015). Parmi ces indices, il existe : Les indices liés aux caractéristiques fréquentielles de la voix (c.-à-d., le genre du locuteur). Les indices liés aux différences d’intensité entre la voix cible (target, en anglais) et les autres voix masques (masker, en anglais), d’où le terme anglais : target-to-masker ratio (ou TMR ; c.-à-d., rapport cible sur masque). Les indices liés à la séparation spatiale des locuteurs. La familiarité avec la voix du locuteur peut réduire le masquage informationnel (Johnsrude et al., 2013). Dans leur étude, Johnsrude et al. (2013) ont montré qu’écouter la voix de son partenaire de vie peut faciliter la ségrégation des voix dans un protocole d’écoute multilocuteurs. Le TMR et la séparation spatiale des sources seront examinés plus en détail dans le paragraphe suivant.
Target-to-masker ratio
Plusieurs études ont montré que le TMR peut être un indice utile afin de ségréger les différents flux sonores (Andéol et al., 2017 ; Bronkhorst, 2015 ; Brungart & Simpson, 2005 ; Eddins & Liu, 2012). L’efficacité du TMR peut être affectée par 1) la différence de genre entre les locuteurs, car ces différences de caractéristiques vocales dominent sur les indices de ségrégation offerts par la présence du TMR ; 2) la présence de bruits supplémentaires qui peuvent couvrir le locuteur le plus silencieux et c) l’augmentation du nombre de locuteurs qui interfèrent sur la détection de la voix cible. Pour ces raisons, la première étude réalisée au cours de la thèse s’est focalisée sur l’efficacité du TMR en présence d’une seule voix masque du même sexe que la voix cible. Ce qu’il faut retenir La scène auditive est composée d’objets sonores, reconnaissables et dotés d’une signification précise, qui se regroupent en différents flux sonores. Plusieurs indices sonores de la scène auditive peuvent aider à ségréger les flux dont : le TMR et la séparation spatiale des locuteurs en sont deux principaux. Lanzilotti Cosima – Thèse de doctorat – 2021 29 Il est en général plus facile de prêter attention au locuteur dont la voix est plus forte que les autres. Ainsi, intuitivement, en contexte opérationnel, une amélioration de l’intelligibilité de la voix cible devrait être obtenue en augmentant à la radio le volume du locuteur cible. Mais, comme indiqué dans l’article de Brungart & Simpson (2007), il peut être difficile en milieu opérationnel de prévoir quelle sera la voix cible. En pratique, il est fréquent que les opérateurs novices manipulent en permanence les niveaux des radios. Les opérateurs experts parviennent à utiliser le TMR comme outil de ségrégation, que la voix cible ait un niveau supérieur ou inférieur aux autres voix, du moment que la valeur absolue de la différence de niveau entre les voix est suffisante. L’un des protocoles comportementaux les plus largement utilisés pour étudier les situations multilocuteurs est le Coordinate Response Measure (CRM corpus, Bolia et al., 2000). Ce corpus est composé de phrases qui respectent toutes la même structure : « Ready call sign go to color number now ». Dans la version que nous utilisons, il existe 7 identifiants différents (7 call sign : Baron, Charlie, Ringo, Eagle, Arrow, Hopper, Tiger, Laker), 4 couleurs (bleu, vert, rouge, blanc) et 8 chiffres (de 1 à 8). Généralement, l’auditeur doit indiquer la couleur et le chiffre donnés par la voix cible qui est définie par un identifiantspécifique (par exemple Baron). La voix cible peut être présentée simultanément avec une ou plusieurs voix masques et toutes indiquent à l’auditeur un couple couleur-chiffre différent. La littérature nous montre que les performances sont plus élevées lorsque la voix cible est présentée à une intensité plus élevée que les autres voix masques (Andéol et al., 2017 ; Brungart, 2001 ; Thompson et al., 2015). Toutefois, quand la voix cible est présentée à une intensité plus faible par rapport à la voix masque, les performances au sein de la population sont plus variables (Andéol et al., 2017). Il apparait que la population se divise grossièrement en deux catégories de personnes : les participants dont la performance s’améliore au fur et à mesure que le TMR augmente (voix cible de plus en forte) et les participants dont la performance est élevée en présence d’un TMR positif mais aussi d’un TMR fortement négatif. Enfin, en présence d’un TMR intermédiaire (c.- à-d., quand les deux voix ont plus ou moins le même niveau d’intensité), la performance chute (Andéol et al., 2017 ; Brungart, 2001 ; Brungart & Simpson, 2007 ; Cooke et al., 2008 ; Thompson et al., 2015). Ces résultats suggèrent que dans les deux cas opposés—TMR positif et TMR négatif—c’est précisément la différence nette de volume entre les deux voix qui permet une meilleure ségrégation de celles-ci avec une meilleure compréhension de la voix cible, bien qu’elle soit a priori défavorisée dans le dernier cas. Lanzilotti Cosima – Thèse de doctorat – 2021 30 Le fait de ne pas être en mesure de séparer les deux voix en présence d’un TMR négatif pourrait être dû au fait que certains auditeurs ne se rendent pas compte de la différence de volume entre les deux voix et se désengagent en raison de la difficulté de la tâche (Andéol et al., 2017). Andéol et al. (2017) ont enregistré l’activité du cortex préfrontal de participants ayant une performance élevée avec TMR positif et négatif (U-shape performers-participants avec une performance suivant une courbe en « U ») et de participants ayant une performance croissante au fur et à mesure de l’augmentation du TMR (non-U-shape performers) ; (Figure 3). Les premiers uniquement, montrent une plus grande implication du cortex préfrontal en présence d’un TMR négatif (comparée aux TMR positif et intermédiaire) ; (Figure 4). Considérant que le cortex préfrontal est une région clef dans la mise en œuvre des fonctions exécutives (Baddeley, 1996), son implication pourrait refléter le plus grand engagement des ressources cognitives de la part des auditeurs capables d’utiliser un TMR défavorable. Une performance plus élevée est donc lié à une plus grande activité corticale (engagement de ressources cognitives).
REMERCIEMENTS |