Il est rare que nous parlions dans le silence. La plupart du temps, nos paroles se mélangent à d’autres sons avant de parvenir aux oreilles de nos auditeurs. Pourtant, même lorsque ces sons perturbateurs sont très importants, les auditeurs peuvent parvenir à saisir le contenu du message. Or les caractéristiques de propagation des sons ne permettent pas d’expliquer ces performances d’intelligibilité. En effet, en enregistrant plusieurs locuteurs simultanés avec un seul microphone, on peut supprimer toute la nature directionnelle de la propagation et ne conserver que les fluctuations de pression instantanées en un point de l’espace. En écoutant cet enregistrement (à l’aide d’un casque), un auditeur pourra cependant distinguer les différents locuteurs et comprendre ce qu’ils disent. Ainsi, le système auditif est capable de distinguer deux sources acoustiques, même si elles sont virtuellement placées au même point.
La psychoacoustique est un outil efficace pour comprendre comment le système auditif parvient à classifier les sources sonores et à les séparer. Au cours des 50 dernières années, des recherches ont porté sur les paramètres utilisés par le système auditif pour séparer différentes sources. Une première approche a consisté simplement à faire varier certaines caractéristiques des sons et à observer leur influence sur la capacité des auditeurs à séparer plusieurs sources, ou plus particulièrement plusieurs locuteurs . Cependant ces études ne permettent pas de comprendre comment le système auditif exploite ces caractéristiques pour distinguer et séparer les différentes sources.
En abordant le problème par un biais plus fondamental, il est apparu que l’auditeur a la capacité de former des flux auditifs. C’est-à-dire qu’il peut assembler des parties du signal acoustique, concentrer son attention sur ces parties et ignorer le reste du signal. Il lui est même possible de faire passer volontairement son attention d’un sous-ensemble du signal à un autre. Ce phénomène a d’abord été mis en évidence avec des sons simples de synthèse, ce qui a permis d’aboutir à la théorie de l’analyse des scènes auditives . Cette théorie a conduit à dégager deux familles de mécanismes impliqués dans la formation de flux auditifs : la ségrégation simultanée et la ségrégation séquentielle. En étudiant ces mécanismes, certaines caractéristiques acoustiques permettant à des sons d’être séparés ont pu être associées à des variables ou fonctions auditives. Ainsi, il a été montré que la sélectivité fréquentielle était un des facteurs déterminant pour la perception de la hauteur fondamentale . Outre la clarification de nos connaissances sur le fonctionnement de l’appareil auditif, ces études ont ouvert des pistes de réflexion pour améliorer la réhabilitation des malentendants, et plus particulièrement en milieu bruyant.
Depuis l’apparition de la théorie de l’analyse des scènes auditives, la ségrégation simultanée et la ségrégation séquentielle ont été étudiées séparément. Pourtant, quand plusieurs personnes parlent en même temps, les événements sonores ne sont ni purement simultanés, ni purement séquentiels. Dans les situations naturelles, si ces deux mécanismes sont réellement impliqués alors ils interagissent, ou tout du moins ils coexistent. Pour comprendre comment s’opère cette interaction, on peut faire converger l’étude de la ségrégation simultanée et l’étude de la ségrégation séquentielle vers l’étude de situations plus écologiques où deux locuteurs sont en compétition. Cependant, si la ségrégation simultanée a été largement étudiée avec des signaux de parole, la ségrégation séquentielle, quant à elle, n’a bénéficié que de très peu d’études impliquant de tels sons. Les conséquences que peuvent avoir les spécificités des signaux de parole sur la ségrégation séquentielle sont donc largement méconnues. Dans l’objectif de rapprocher la ségrégation simultanée et la ségrégation séquentielle de la perception de voix concurrentes, la première étape consiste donc à éclaircir le phénomène de ségrégation séquentielle pour des signaux de parole .
Les études présentées dans ce qui suit visent plus spécifiquement à clarifier le rôle de la hauteur dans la ségrégation séquentielle de voyelles. La hauteur fondamentale est ainsi la seule dimension acoustique a avoir été manipulée, mais les indices perceptifs disponibles pour les auditeurs ont varié selon les études. Ce sont donc les fonctions auditives employées pour la ségrégation séquentielle de voyelles différant par leur hauteur fondamentale qui ont été recherchées. Une méthodologie spécifique a d’abord été mise en place et validée . Le rôle de la sélectivité fréquentielle a ensuite été exploré à travers des simulations de lissage spectral , et d’implant cochléaire . Le rôle des indices temporels de hauteur a été évalué . La relation avec la perception de la parole dans le bruit a été étudiée pour produire une première estimation de l’implication de la ségrégation séquentielle dans la perception de voix concurrentes . Enfin, la variabilité de sélectivité fréquentielle qui existe dans la population a été exploitée pour en observer l’effet sur la ségrégation séquentielle de séquences de voyelles .
La parole est composée de sons voisés (les voyelles et certaines consonnes) et de sons non voisés (consonnes). Les voyelles sont des sons complexes harmoniques relativement stationnaires dont la fréquence fondamentale est comprise entre 80 et 400 Hz environ, et dont l’enveloppe spectrale présente des pics appelés formants. Les positions spectrales des formants caractérisent les phonèmes et permettent, notamment, de distinguer les différentes voyelles qui composent la langue. Les éléments quasi-stationnaires de la parole contiennent d’autres dimensions caractéristiques que l’on peut regrouper sous l’appellation de timbre. Les consonnes, au contraire, sont plutôt caractérisées par leur nature transitoire.
Pour étudier la perception de voix concurrentes, le protocole généralement employé consiste à rapporter une cible (mot ou phrase) présentée simultanément à un masque. Cette procédure permet de mesurer une performance d’identification en fonction d’une variable, classiquement le rapport entre les niveaux de la cible et du masque exprimé en décibels (soit le rapport “signal sur bruit” ou SNR, pour signal-to noise ratio). Cette mesure conduit à l’estimation d’un seuil de perception (SRT, pour speech reception threshold) qui est défini le plus souvent comme la valeur du SNR qui donne 50% de bonnes réponses. Le SRT ou les scores d’identification moyens sont classiquement utilisés comme mesure de performance de ségrégation de la cible dans le masque. La nature de la cible, mais surtout la nature du masque qui interfère avec la cible, influencent fortement les résultats observés.
Le masque le plus simple qui peut être envisagé est un bruit blanc (par exemple Hawkins et Stevens, 1950). Ce type de son est facile à générer et à manipuler mais ne correspond pas à la situation réelle la plus courante. En effet, dans une situation réelle, le bruit masquant est souvent produit par d’autres locuteurs ou par d’autres sources ayant des caractéristiques proches comme les instruments de musique. Le masque et la cible partagent alors un certain nombre de caractéristiques acoustiques comme la présence d’harmoniques, la présence de formants. . . La parole a un spectre relativement large bande mais dans lequel toutes les fréquences ne présentent pas la même énergie .
Introduction |