CLASSIFICATION DU SON AVEC PLUSIEURS FAMILLES DE COEFFICIENTS
Pour toutes les expérimentations que nous avons effectuées jusque-là, nous n’avions considéré l’utilisation que d’un seul type de paramètres acoustiques : MFCC. Comme mentionné précé- demment, les coefficients MFCC sont couramment utilisés en reconnaissance de la parole et en reconnaissance et vérification du locuteur. La raison en est que les filtres triangulaires utilisés dans le calcul de ces coefficients correspondent au système auditif humain plus que les filtre linéaires [Picone, 1993] [Schroeder, 1977]. Toutefois, il existe un nombre non négligeable de coefficients qui peuvent être extraits d’un signal audio, chaque famille de coefficients pouvant mettre en exergue une ou plusieurs caractéristiques du signal. Certaines familles de coefficients sont effectivement utilisées dans d’autres domaines audio voisins tels que la reconnaissance de genre ou d’instruments musicaux [Peeters, 2004] [West and Cox, 2004] [Jang et al., 2008] [Duxbury et al., 2003] [Eronen and Klapuri, 2000] [Mierswa and Morik, 2005]. Ce chapitre propose une étude d’un certain nombre de coefficients acoustiques pour les exploiter en reconnaissance des sons de l’environnement. Comme dans le chapitre précédent, les méthodes de classification utilisées sont basées sur les GMMs et les SVMs. L’utilisation des GMMs est semblable à celle que nous avons appliquée au chapitre précédent. Pour les SVMs, en revanche, nous testons deux méthodes pour la transformation de séquences de vecteurs. Nous faisons une comparaison entre les performances obtenues avec chaque famille de coefficients ainsi que celles obtenues en utilisant toutes les familles conjointement. Les sections suivantes expliquent les motivations de cette démarche et les techniques mises en œuvre pour la transformation de séquences de vecteurs.
Motivations de l’utilisation de plusieurs familles de coefficients
En reconnaissance ou vérification du locuteur, la plupart des techniques d’extraction de caracté- ristiques utilisent des informations spectrales de bas niveau qui véhiculent les caractéristiques du conduit vocal [Kinnunen and Li, 2010b]. Les informations spectrales sont extraites depuis des fenêtres d’une durée de 20 à 30 ms de signal de parole en utilisant le carré de l’amplitude de la transformée de Fourier discrète (DFT pour Discrete Fourier transform). Étant donnée la lente Les coefficients MFCC ont initialement été proposés pour une tâche bien particulière, la recon- naissance de la parole. Ils ont par la suite trouvé leur utilisation auprès de la communauté de la reconnaissance du locuteur bien que les deux tâches soient de nature différente. Ils sont même les coefficients les plus utilisés pour les deux tâches du fait de l’existence de méthodes de calcul rapides et d’une certaine robustesse au bruit [Sahidullah and Saha, 2012].D’après Kinnunen [Kinnunen, 2003] [Kinnunen, 2005], le fait que les MFCC soient l’une des familles de coefficients les plus utilisées dans les deux domaines peut s’avérer quelque peu « iro- nique » étant données les natures différentes des deux problèmes. En effet, l’un des problèmes les plus gênants en reconnaissance de la parole est la variabilité des locuteurs, alors qu’en reconnais- sance du locuteur, c’est justement cette variabilité que l’on cherche à exploiter pour discriminer les locuteurs.
Nous restons tout de même sceptiques quant à ces observations car, d’une part, les MFCC ren- contrent un grand succès en reconnaissance du locuteur comme en témoignent les bons résultats obtenus avec ces coefficients depuis de très nombreuses années. En étudiant la littérature récente en matière de reconnaissance du locuteur, on peut constater que tous les efforts se sont concentrés sur les méthodes de classification plutôt que sur les coefficients acoustiques utilisés. En effet, tandis que les MFCC constituent souvent le choix standard en matière de coefficients acoustiques, beaucoup d’algorithmes de classification ont été étudiés (VQ, GMMs, ANNs, SVMs, etc.). D’autre part, les MFCC peuvent s’avérer très utiles pour la différentiation de certains classes de sons. En effet, il est vrai que ces coefficients sont conçus pour modéliser la parole (d’où l’utilisation de filtres triangulaires qui sont plus étroits pour les basses fréquences, c’est à dire les fréquences où se situe majoritairement le signal de la parole), mais cela peut s’avérer bien utile pour différencier, par exemple, certains sons humains d’autres sons dont les plages de fréquences les plus importantes se trouvent dans une autre partie du spectre, ou bien remplissent tout le spectre.Pour illustrer ce dernier point, examinons les spectrogrammes de trois classes de sons très différents : des cris humains, le bruit d’un moteur électrique (rasoir), et des claquements de porte. Les figures de 5.1 à 5.3 montrent les spectrogrammes de 4 enregistrements de chacune de ces 3 classes respectivement. On peut y observer que, pour les cris, les basses fréquences (entre 800Hz et 1500Hz environ) sont toujours d’une intensité élevée, contrairement aux hautes fréquences (de plus de 5500Hz) qui sont quasiment absentes.