Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle
Indexation sonore
Un document sonore, c’est-à-dire la bande sonore d’un document multimédia ou enregistrement d’émission radiophonique, est un document particulièrement difficile à indexer, car l’extraction de l’information élémentaire se heurte à l’extrême diversité des sources acoustiques. Les segments acoustiques sont de nature très diverses de par leur production et leur enregistrement : l’environnement peut être propre ou plus ou moins bruité, la qualité de l’enregistrement peut être plus ou moins soignée et liée à des éléments extérieurs (canal téléphonique), la musique peut être traditionnelle ou synthétique, la présence de parole peut être observée en monologue ou en dialogue… Si aucune connaissance a priori n’est donnée et pour tenir compte de cette extrême variabilité, le signal acoustique doit subir un certain nombre de pré-traitements avant de pouvoir espérer extraire une quelconque information pertinente. Il peut être intéressant de rechercher des « bruits » ou des sons sémantiquement significatifs tels que les applaudissements, les rires ou les effets spéciaux (pistolets, explosions…), de repérer les passages musicaux pour les segmenter et les identifier, de détecter les locuteurs équivalents à des tours de parole dans un dialogue. Enfin la transcription du discours ou la recherche de mots clés (mots isolés, groupes de mots…) fournissent une information importante sur le contenu du message verbal, et permettent l’accès à la recherche d’information telle qu’elle est pratiquée dans des documents textuels. Si l’on se réfère à la norme MPEG7, indexer un document sonore signifie rechercher aussi bien des composantes de bas niveau dites primaires comme la parole, la musique, les sons clés (jingles, mots-clés…) que des descripteurs de plus haut niveau tels les locuteurs ou les thèmes.
Classification Parole/Musique/Bruit
Parole
Le signal de parole appartient à la classe des signaux acoustiques produits par des vibrations des couches d’air. Les variations de ce signal reflètent les fluctuations de la pression de l’air [Boi87]. La parole est une suite de sons produits soit par des vibrations des cordes vocales (source quasi périodique de voisement), soit par une turbulence créée par l’air s’écoulant dans le conduit vocal, lors du relâchement d’une occlusion ou d’une forte constriction de ce conduit (sources de bruit non voisées) [Cal89]. La durée d’un son est de l’ordre de 60 à 100 ms (cf. spectrogramme de la figure 1.1). FIG. 1.1 – Spectrogramme de parole : alternance de sons voisés et non voisés sur 1,2 s de signal. Dans le cas voisé, une structure formantique est présente. La parole est formée de phonèmes et de transitions entre ces phonèmes. Plusieurs types de phonèmes existent : les voyelles, les consonnes fricatives, les consonnes plosives, les nasales et les liquides. Les transitions acoustiques correspondent à des transitions dans l’appareil de production de l’état correspondant au premier phonème à l’état correspondant au suivant [Kor99]. Les voyelles, sons voisés par excellence, sont les « piliers » de la parole ; leur présence est révélée fréquentiellement par les formants qui correspondent aux fréquences de résonance du conduit vocal (cf. figure 1.1). La fréquence d’apparition des voyelles correspond au rythme syllabique.
Musique
Les particularités de la musique, qui la différencient de toutes autres sonorités, ne résident pas seulement dans des différences culturelles, mais dans des propriétés physiologiques très spécifiques du système auditif de l’homme. Ainsi, définir la musique est très difficile car celleci peut être produite et perçue de différentes manières. FIG. 1.2 – Spectrogramme de musique traditionnelle sur 1,2 s de signal : une structure harmonique est présente. C’est pourquoi lorsqu’il s’agit d’extraire cette composante, de nombreux chercheurs se limitent à l’étude de la musique « instrumentale traditionnelle » dans le sens où elle est une composition de sons harmoniques (de notes au sens classique). Dans un cadre éventuellement polyphonique, le signal acoustique musical se caractérise par l’existence de(s) hauteur(s) ou fréquence(s) fondamentale(s) (cf. figure 1.2). Remarque : lorsque l’on parle d’un signal harmonique, il s’agit d’un signal composé d’une somme de sinusoïdes disposées sur un peigne harmonique.
Paramètres (ou caractéristiques)
Pour rechercher des composantes primaires dans un document sonore telles que la parole et la musique décrites auparavant, deux étapes sont indispensables : – la paramétrisation, – la décision. Une telle analyse correspond à une analyse de type reconnaissance des formes. La phase de paramétrisation a pour but l’extraction d’informations pertinentes, dites discriminantes pour la tâche de classification envisagée. Beaucoup de caractéristiques sont utilisées dans les systèmes actuels, nombre d’entre elles visent à mettre en évidence l’aspect harmonique du signal. Seules les plus fréquemment utilisées sont reprises ici. Elles ont été classées en quatre groupes selon leur mode de calcul : – les paramètres temporels, – les paramètres fréquentiels, – les paramètres mixtes, – les paramètres issus de modélisation.
Les paramètres temporels
Les deux principaux paramètres temporels sont l’énergie et le ZCR (Zero Crossing Rate). Ils sont en général directement calculés à partir du signal temporel. Utilisés il y a très longtemps en reconnaissance de la parole [Dav52], ils ont prouvé plus récemment leur pouvoir discriminant dans le cadre de ce problème.
Le ZCR
Le ZCR est le taux de passage par zéro. Cette caractéristique est fréquemment utilisée pour la classification parole/musique [Sau96], [Sch97] et [Zha98]. Les brusques variations du ZCR sont significatives de l’alternance voisée/non-voisée donc de présence de parole. 15 Chapitre 1. Définitions et état de l’art La trame acoustique est une suite d’échantillons représentant 20 à 40 ms de signal en général, durant laquelle le signal de parole est supposé quasi stationnaire : des paramètres statistiques peuvent y être calculés.
Table des figures |