Le système de classification Parole/Musique/Bruit

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle

Indexation sonore

Un document sonore, c’est-à-dire la bande sonore d’un document multimédia ou enregistrement d’émission radiophonique, est un document particulièrement difficile à indexer, car l’extraction de l’information élémentaire se heurte à l’extrême diversité des sources acoustiques. Les segments acoustiques sont de nature très diverses de par leur production et leur enregistrement : l’environnement peut être propre ou plus ou moins bruité, la qualité de l’enregistrement peut être plus ou moins soignée et liée à des éléments extérieurs (canal téléphonique), la musique peut être traditionnelle ou synthétique, la présence de parole peut être observée en monologue ou en dialogue… Si aucune connaissance a priori n’est donnée et pour tenir compte de cette extrême variabilité, le signal acoustique doit subir un certain nombre de pré-traitements avant de pouvoir espérer extraire une quelconque information pertinente. Il peut être intéressant de rechercher des « bruits » ou des sons sémantiquement significatifs tels que les applaudissements, les rires ou les effets spéciaux (pistolets, explosions…), de repérer les passages musicaux pour les segmenter et les identifier, de détecter les locuteurs équivalents à des tours de parole dans un dialogue. Enfin la transcription du discours ou la recherche de mots clés (mots isolés, groupes de mots…) fournissent une information importante sur le contenu du message verbal, et permettent l’accès à la recherche d’information telle qu’elle est pratiquée dans des documents textuels. Si l’on se réfère à la norme MPEG7, indexer un document sonore signifie rechercher aussi bien des composantes de bas niveau dites primaires comme la parole, la musique, les sons clés (jingles, mots-clés…) que des descripteurs de plus haut niveau tels les locuteurs ou les thèmes.

Classification Parole/Musique/Bruit

Parole

Le signal de parole appartient à la classe des signaux acoustiques produits par des vibrations des couches d’air. Les variations de ce signal reflètent les fluctuations de la pression de l’air [Boi87]. La parole est une suite de sons produits soit par des vibrations des cordes vocales (source quasi périodique de voisement), soit par une turbulence créée par l’air s’écoulant dans le conduit vocal, lors du relâchement d’une occlusion ou d’une forte constriction de ce conduit (sources de bruit non voisées) [Cal89]. La durée d’un son est de l’ordre de 60 à 100 ms (cf. spectrogramme de la figure 1.1). FIG. 1.1 – Spectrogramme de parole : alternance de sons voisés et non voisés sur 1,2 s de signal. Dans le cas voisé, une structure formantique est présente. La parole est formée de phonèmes et de transitions entre ces phonèmes. Plusieurs types de phonèmes existent : les voyelles, les consonnes fricatives, les consonnes plosives, les nasales et les liquides. Les transitions acoustiques correspondent à des transitions dans l’appareil de production de l’état correspondant au premier phonème à l’état correspondant au suivant [Kor99]. Les voyelles, sons voisés par excellence, sont les « piliers » de la parole ; leur présence est révélée fréquentiellement par les formants qui correspondent aux fréquences de résonance du conduit vocal (cf. figure 1.1). La fréquence d’apparition des voyelles correspond au rythme syllabique.

Musique

Les particularités de la musique, qui la différencient de toutes autres sonorités, ne résident pas seulement dans des différences culturelles, mais dans des propriétés physiologiques très spécifiques du système auditif de l’homme. Ainsi, définir la musique est très difficile car celleci peut être produite et perçue de différentes manières. FIG. 1.2 – Spectrogramme de musique traditionnelle sur 1,2 s de signal : une structure harmonique est présente. C’est pourquoi lorsqu’il s’agit d’extraire cette composante, de nombreux chercheurs se limitent à l’étude de la musique « instrumentale traditionnelle » dans le sens où elle est une composition de sons harmoniques (de notes au sens classique). Dans un cadre éventuellement polyphonique, le signal acoustique musical se caractérise par l’existence de(s) hauteur(s) ou fréquence(s) fondamentale(s) (cf. figure 1.2). Remarque : lorsque l’on parle d’un signal harmonique, il s’agit d’un signal composé d’une somme de sinusoïdes disposées sur un peigne harmonique.

Paramètres (ou caractéristiques)

Pour rechercher des composantes primaires dans un document sonore telles que la parole et la musique décrites auparavant, deux étapes sont indispensables : – la paramétrisation, – la décision. Une telle analyse correspond à une analyse de type reconnaissance des formes. La phase de paramétrisation a pour but l’extraction d’informations pertinentes, dites discriminantes pour la tâche de classification envisagée. Beaucoup de caractéristiques sont utilisées dans les systèmes actuels, nombre d’entre elles visent à mettre en évidence l’aspect harmonique du signal. Seules les plus fréquemment utilisées sont reprises ici. Elles ont été classées en quatre groupes selon leur mode de calcul : – les paramètres temporels, – les paramètres fréquentiels, – les paramètres mixtes, – les paramètres issus de modélisation.

Les paramètres temporels

Les deux principaux paramètres temporels sont l’énergie et le ZCR (Zero Crossing Rate). Ils sont en général directement calculés à partir du signal temporel. Utilisés il y a très longtemps en reconnaissance de la parole [Dav52], ils ont prouvé plus récemment leur pouvoir discriminant dans le cadre de ce problème.

Le ZCR

Le ZCR est le taux de passage par zéro. Cette caractéristique est fréquemment utilisée pour la classification parole/musique [Sau96], [Sch97] et [Zha98]. Les brusques variations du ZCR sont significatives de l’alternance voisée/non-voisée donc de présence de parole. 15 Chapitre 1. Définitions et état de l’art La trame acoustique est une suite d’échantillons représentant 20 à 40 ms de signal en général, durant laquelle le signal de parole est supposé quasi stationnaire : des paramètres statistiques peuvent y être calculés.

Table des matières

Table des figures
Liste des tableaux
Introduction générale
1 Indexation
2 Indexation sonore
3 Problématique
4 Organisation du mémoire
Partie I Classification Parole/Musique/Bruit
Chapitre 1 Définitions et état de l’art
1.1 Introduction
1.1.1 Parole
1.1.2 Musique
1.2 Paramètres (ou caractéristiques)
1.2.1 Les paramètres temporels
1.2.1.1 Le ZCR
1.2.1.2 L’énergie
1.2.2 Les paramètres fréquentiels
1.2.2.1 Le centroïde spectral
1.2.2.2 Le flux spectral
1.2.2.3 Le spectral rolloff point
1.2.3 Les paramètres mixtes
1.2.4 Les paramètres issus de modélisation : les MFCC
1.2.5 Mais encore
1.2.6 Conclusion
1.3 Méthodes de Classification
1.3.1 Approche statistique
1.3.1.1 Méthodes paramétriques
1.3.1.2 Méthodes non paramétriques
1.3.2 Méthode de décision fondée sur les réseaux de neurones
1.3.3 Support Vector Machines : SVM
1.3.3.1 Cas linéairement séparable
1.3.3.2 Cas non linéairement séparable
1.4 Les systèmes
1.4.1 IRCAM
1.4.2 LIMSI
1.5 Conclusion
Chapitre 2 Le système PMB de base
2.1 Introduction
2.2 Description du système
2.2.1 Pré-traitement acoustique
2.2.1.1 Analyse cepstrale
2.2.1.2 Analyse spectrale
2.2.2 Reconnaissance
2.3 Apprentissage des MMG
2.3.1 Etiquetage manuel
2.3.2 Initialisation des modèles
2.3.3 Optimisation des paramètres
2.3.4 Adaptation des modèles : critère MAP
2.4 Expériences et évaluation
2.4.1 Corpus
2.4.2 Élaboration des modèles
2.4.3 Évaluation
2.4.3.1 L’accuracy
2.4.3.2 Résultats
2.5 Conclusion
Chapitre 3 Le système de classification Parole/Musique/Bruit
3.1 Introduction
3.2 Le système global et ses paramètres
3.2.1 Le système global
3.2.2 Modulation de l’énergie à 4 Hertz
3.2.3 Modulation de l’entropie
3.2.4 Paramètres de segmentation
3.2.4.1 Segmentation automatique
3.2.4.2 Paramètres
3.2.5 Récapitulatif des échelles de temps du système
3.3 Étude des distributions des paramètres
3.3.1 Modulation de l’énergie à 4 Hertz
3.3.2 Modulation de l’entropie
3.3.3 Paramètres de segmentation
3.3.3.1 Nombre de segment
3.3.3.2 Durée des segment
3.4 Expériences et évaluation
3.4.1 Corpus
3.4.2 Étiquetage manuel
3.4.3 Évaluation
3.4.4 Comparaison avec le système référence
3.5 Fusion de données
3.5.1 Introduction
3.5.2 Théorie des probabilités
3.5.3 Théorie de l’évidence
3.5.4 Expériences
3.6 Conclusion
Partie II Les sons clés
Chapitre 4 Les jingles
4.1 Introduction
4.1.1 Problématique
4.1.2 Le jingle
4.2 Le système de détection de jingle
4.2.1 Pré-traitement acoustique
4.2.2 Détection
4.2.3 Identification
4.3 Expériences
4.3.1 Corpus
4.3.2 Apprentissage
4.3.3 Résultats
4.4 Conclusion
Chapitre 5 Les applaudissements, les rires et le locuteur cible
5.1 Introduction
5.1.1 Problématique
5.1.2 Les applaudissements et les rires
5.1.3 Le locuteur cible
5.2 Le système de base
5.2.1 Pré-traitement
5.2.2 Apprentissage et reconnaissance
5.3 Expériences et résultats
5.3.1 Corpus
5.3.2 Les applaudissements et les rires
5.3.2.1 Critère d’évaluation
5.3.2.2 Détection des applaudissements
5.3.2.3 Détection des rires
5.3.3 Le locuteur cible
5.4 Conclusion
Chapitre 6 Les mots clés
6.1 Introduction
6.1.1 Problématique
6.1.2 Bref historique
6.2 Le système de détection de mots clés
6.2.1 Pré-traitement acoustique
6.2.1.1 Analyse par codage prédictif linéaire (LPC)
6.2.1.2 Analyse par prédiction linéaire perceptuelle (PLP)
6.2.2 Les Modèles de Markov Cachés (MMC)
6.2.2.1 Présentation des MMC
6.2.2.2 La plate-forme HTK
6.2.2.3 Modélisation phonétique
6.2.3 Le modèle de mots clés
6.3 Expériences et résultats
6.3.1 Corpus
6.3.2 Mise en œuvre
6.3.3 Évaluation
6.4 Conclusion
Partie III Vers une structuration audiovisuelle
Chapitre 7 Réflexions sur une structuration audiovisuelle
7.1 Introduction
7.1.1 Structuration et indexation automatique
7.1.2 Analyse audio
7.1.3 Organisation
7.2 Structuration : nos apports
7.2.1 Détection de motif dans une collection d’émissions
7.2.2 Structuration d’un journal télévisé
7.3 Structuration : perspectives
7.3.1 Apports de la vidéo
7.3.1.1 Détection de logos
7.3.1.2 Extraction de texte
7.3.1.3 Reconnaissance de l’intervenant
7.3.2 Macrosegmentation automatique
7.4 Conclusion
Conclusion et perspectives
Annexes
Annexe A Le logiciel Transcriber
A.1 Présentation
A.2 Utilisation
A.2.1 Exemple d’étiquetage
A.2.2 Exemple de fichier de transcription
Annexe B Résultats complémentaires pour la détection de parole et de musique
B.1 Présentation
B.2 Corpus projet RAIVES
B.3 Corpus campagne d’évaluation ESTER
B.4 Corpus projet FERIA
Annexe C Algorithme VQ
(Quantification Vectorielle)
C.1 Objectif
C.2 Algorithme des K-means
C.3 Algorithme LBG (Linde, Buzo, Gray)
Annexe D Algorithme EM
(Expectation Maximisation)
D.1 Rappels
D.2 Algorithme de base
Annexe E Outils HTK
E.1 Introduction
E.2 Paramétrisation
E.3 Apprentissage des modèles
E.3.1 Présentation des modèles
E.3.2 Étiquetage
E.3.3 Initialisation et réestimation des modèles (cf. annexe G)
E.4 Reconnaissance (cf. annexe F)
Annexe F Reconnaissance par l’algorithme de Viterbi
F.1 Reconnaissance
Annexe G Apprentissage par l’algorithme de Baum-Welch
G.1 Introduction
G.2 Initialisation des modèles
G.3 Réestimation des modèles
Bibliographie
Résumé