TRAVAUX SUR LA RECONNAISSANCE DES SONS DE L’ENVIRONNEMENT

Approches fondées sur le système auditif humain

Le système auditif humain a toujours été une importante source d’inspiration pour les systèmes de reconnaissance du son et pour les systèmes du type ASA (Auditory Scene Analysis). La compréhen-sion du fonctionnement de l’oreille interne, en particulier de la cochlée, a contribué à l’obtention de modèles mathématiques pour ces mécanismes biologiques et à leur application à la reconnaissance du son.

Système auditif humain

La figure 3.1 1 montre un diagramme du système auditif humain. Le son collecté par l’oreille externe traverse le conduit auditif externe et enclenche des vibrations au niveau du tympan. Le tympan convertit les vibrations externes, provoquées par la pression acoustique, en vibrations mécaniques qui se propagent dans la cavité tympanique (oreille moyenne). Les vibrations sont reçues par la chaîne ossiculaire de l’oreille moyenne composée du marteau, de l’enclume et de l’étrier. Les vibrations mécaniques sont transformées en ondes de compression qui traversent la fenêtre ovale et se propagent dans le milieu liquide de la cochlée, située dans l’oreille interne [Pickles, 2008].
La cochlée est un tube possédant une structure hélicoïdale de deux tours et demi de spire et abritant la membrane basilaire. Les vibrations de la membrane basilaire sont reçues par les cellules ciliées, qui se trouvent disposées tout au long de la cochlée. Elles sont ensuite transformées en stimuli nerveux transmis au cerveau via le nerf auditif (ou nerf vestibulocochléaire).
La première extrémité de la cochlée, connectée à la fenêtre ovale et à la fenêtre ronde, est appelée base et constitue la partie la plus fine et la plus rigide du tube. Le diamètre de celui-ci (et la largeur de la membrane basilaire) croît progressivement et atteint sa plus grande valeur à l’autre extrémité, plus large et plus souple, appelée apex. La base est de ce fait plus rigide que l’apex [Gelfand, 2004]. Lorsque une onde traverse la cochlée de la base vers l’apex, son amplitude atteint sa plus grande valeur à un endroit bien précis de la membrane basilaire et décroît ensuite très rapidement [Guy and Rémy, 2013]. Cet endroit dépend de la fréquence de l’onde. En effet, les ondes à hautes fréquences provoquent des vibrations plutôt près de la base. Elles perdent donc rapidement en amplitude et ne se propagent pas vers la fin de la membrane basilaire. Les ondes à basses fréquences, quant à elles, peuvent continuer à se propager le long de la membrane basilaire et sont reçues près de l’apex. La figure 3.2 illustre une carte tonotopique [Romani et al., 1975] [Talavage et al., 2004] [Gazzaniga et al., 2000] montrant les parties activées de la membrane basilaire et les bandes de fréquences correspondantes. Le modèle d’analyse fréquentielle effectuée par la cochlée rappelle celui d’une transformée de Fourier sur une fenêtre de signal. Il est toutefois plus avantageux car il garantit une analyse continue dans les domaines fréquentiel et temporel.

Filtres auditifs

En psychoacoustique, deux vibrations provoquées par deux stimuli auditifs différents, mais dont les fréquences sont assez proches, sont perçues comme émanant du même type de stimulus et elles sont interprétées comme des battements [Cook, 2001]. La raison de cela vient du fait que les deux fréquences provoquent une résonance au même endroit de la membrane basilaire. Une bande critique désigne une plage de fréquences perçues indifféremment par le système auditif humain. Pour que deux fréquences différentes soient perçues distinctement, elles doivent être suffisamment éloignées dans le spectre ; plus précisément, elles doivent appartenir à deux bandes critiques différentes [Gelfand, 2004] [Moore, 1986] [Deutsch, 1999] [Campbell and Greated, 1994] [Radocy and Boyle, 2003].
La figure 3.3 2 illustre le principe de bande critique. Fc est la fréquence centrale de la bande. F1 et F2 sont les fréquences de coupure inférieure et supérieure respectivement. Les deux fréquences, qui sont choisies de sorte que la différence entre leurs amplitudes et l’amplitude maximale soit inférieure à 3dB, désignent la largeur de la bande critique.
Les propriétés physiques de la membrane basilaire et sa réponse varient tout au long de sa longueur. Cela lui permet donc de répondre différemment à deux fréquences différentes, ou plus précisément, à deux plages de fréquences différentes [Zemlin, 1998] [Alberti, 2001] [Munkong and Juang, 2008]. Depuis de très nombreuses années, plusieurs travaux se sont intéressés à la modélisation du fonctionnement de la cochlée, en proposant un ensemble de filtres auditifs qui, selon une définition des fréquences centrales et des largeurs de bandes associées, tentent de produire un modèle de perception qui s’apparente au système auditif humain [Lyon et al., 2010a].
Le terme filtre auditif est étroitement lié à celui de bande critique. Le rôle d’un filtre auditif, en particulier un filtre passe-bande, est d’accentuer une bande de fréquences donnée tout en atténuant les fréquences au-delà de la bande [Gelfand, 2004].
Les variations mécaniques de la membrane basilaire, qui ont pour effet des réponses variables en fonction de la plage de fréquences, peuvent être modélisées par un tableau de filtres auditifs (pouvant être en chevauchement) [Munkong and Juang, 2008]. La notion de filtre auditif et celle de bande critique furent au début interchangeables [Jurado and Robledano, 2007]. Toutefois, le terme filtre auditif est aujourd’hui plus courant, car il permet de prendre en considération plusieurs aspects, notamment le phénomène de masquage qui n’est pas modélisé d’après la définition de la bande critique [Jurado and Robledano, 2007]. De surcroît, les différents filtres auditifs proposés dans les différents travaux, peuvent prendre différentes formes, bien plus complexes que la forme rectangulaire de la bande critique [Patterson, 1976] [Patterson and Henning, 1977] [Sommers and Humes, 1993] [Moore et al., 1995].
Les filtres Gammatone [Patterson et al., 1987] [Patterson et al., 1995] [Slaney, 1993] sont considérés comme l’une des modélisations du fonctionnement de la membrane basilaire les plus réputées. Ils sont basés sur un modèle de bandes critiques appelé Equivalent Rectangular Bandwidth (ERB). Ils ont été créés suite à plusieurs expérimentations impliquant des sujets jeunes ayant une audition normale [Moore and Glasberg, 1983] [Glasberg and Moore, 1990] [Greenwood, 1990] [Peters and Moore, 1992]. Le ERB est défini comme suit : ERB = 24.7(4.37F + 1) (3.1)
Plusieurs autres modèles ont également été proposés [Smith and Abel, 1999] [Lyon et al., 2010a]. L’un des modèle les plus intéressants est celui proposé par [Lyon, 1982]. Il est composé d’un réseau de filtres parallèles, invariables dans le temps, disposés en cascade.

Applications

Les coefficients basés sur les filtres auditifs modélisant le système auditif humain sont utilisés aussi bien en RAP et RAL qu’en reconnaissance des sons de l’environnement. Dans [Srinivasan and Wang, 2008] un modèle de reconnaissance des mots isolés en présence de plusieurs locuteurs est proposé. Des filtres Gammatone sont utilisés. Dans [Schluter et al., 2007], des coefficients basés sur les filtres Gammatone sont combinés avec plusieurs autres coefficients acoustiques pour la RAP. Plusieurs autres travaux sur la RAP utilisent des coefficients basés sur le modèle auditif de la cochlée : [Rademacher and Mertins, 2006] [Shao et al., 2009] [Minh and Lee, 2004] [Abdulla, 2002]. En RAL, on trouve également des travaux intéressants : [Zhang and Abdulla, 2005] [Zhao et al., 2012] [Abdulla and Zhang, 2010].
Plusieurs travaux en REA sont également basés sur des filtres modélisant le système auditif humain. [Anniés et al., 2007] utilisent des filtres Gammatone pour la reconnaissance des sons de pas. [Valero and Alías, 2012] utilisent une combinaison entre des filtres Gammatone et une analyse en odelettes pour la reconnaissance des sons de l’environnement. D’autres travaux incluent : [Hernandez et al., 2007] [Lin and Abdulla, 2007] [Leng et al., 2010] [Leng et al., 2012].

Approches fondées de la reconnaissance de la parole

Bien que les travaux sur la reconnaissance automatique de la parole soient très abondants, l’utilisa-tion des coefficients MFCC avec des modèles de Markov cachés reste l’approche la plus courante [Baker et al., 2009]. Les coefficients MFCC sont calculés sur des fenêtres de signal de très courte durée, ce qui ne permet pas de conserver l’information temporelle du signal. Plusieurs techniques, tels que les coefficients delta et double-delta [Furui, 1981] [Kumar et al., 2011], la technique RASTA (RelAtive SpecTrAl) [Hermansky and Morgan, 1994] ou bien la technique TRAPs (TempoRAl Pat- terns) et ses variantes [Hermansky and Sharma, 1998] [Hermansky and Sharma, 1999] [Jain et al., 2002], sont utilisées pour incorporer l’information temporelle dans les vecteurs de coefficients acoustiques.
Les HMMs sont utilisés à un plus haut niveau pour modéliser l’information temporelle. À l’instar de la RAP, on suppose que la production des autres sons est un système markovien. La figure 3.4 illustre le spectrogramme d’un claquement de porte et une possible modélisation par un HMM. Cet exemple représente un type de son dont l’évolution dans le temps est bien claire (c’est le cas de presque tous les enregistrements de cette classe). Comme nous l’avons vu au chapitre 2 (figures 2.10 et 2.11), cela n’est pas le cas de toutes les classes de sons. Autrement dit, l’information temporelle pourrait, pour certains types de sons, ne pas être significative.
Cowling [Cowling and Sitte, 2002] propose une synthèse des méthodes issues de la RAP et utilisées pour la reconnaissance des sons de l’environnement. D’après l’auteur, les HMMs ne sont pas appropriés pour l’analyse des sons de l’environnement en raison de l’absence d’un alphabet phonétique. Nous restons toutefois sceptiques quant à cette hypothèse. Les HMMs peuvent être utilisés pour la reconnaissance des sons de l’environnement, comme en témoigne l’existence de plusieurs travaux les utilisant. De surcroît, les auteurs n’ont pas inclus les HMMs dans leurs tests, aucune comparaison avec les autres méthodes n’a donc été réalisée.

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *