Télécharger le fichier original (Mémoire de fin d’études)
Descripteurs temporels
Les descripteurs temporels sont extraits à partir de la forme d’onde du signal uniquement. Puisqu’au-cune transformation n’est requise, généralement ces descripteurs présentent l’avantage d’être faiblement complexes.
• Le taux de passage par zero (ZCR, pour Zero Crossing Rate) présenté dans (Kedem 1986) comptabilise le nombre de changement de signe de la forme d’onde sur une portion de signal.
• Les mesures d’énergies reposent sur le calcul de l’énergie RMS (Root Mean Square) dans une trame. Par exemple dans le cas de la discrimination parole/musique, on peut montrer que la parole présente une plus grande variation d’énergie que la musique (Scheirer & Slaney 1997), (Lu et al. 2001), (Wang et al. 2003).
• Les coefficients de corrélation sont utilisés pour rendre compte de la structure harmonique dans le signal. En effet, la mesure d’autocorrélation d’un signal fera apparaître un maximum lorsque le signal est quasi-périodique.
Caractérisation du signal audio
Descripteurs spectraux
Les descripteurs spectraux sont généralement extraits à partir du spectre de Fourier, estimé par la Transformée de Fourier Discrète (TFD). La TFD, calculée sur une trame après pondération (par une fenêtre de Hamming par exemple), est définie pour une trame de N échantillons par :
N−1
X(k) = x(n) exp−2jπk Nn ∀k ∈ [0, …, N − 1]. (2.1)
X
n=0
• Les moments statistiques spectraux sont les quatre premiers moments statistiques calculés sur le spectre :
– Centroïde spectral : estime le point d’équilibre entre les hautes et les basses fréquences du spectre.
– Largeur spectrale : décrit l’étalement du spectre autour de son barycentre.
– L’asymétrique spectrale (skewness) rend compte de l’équilibre de la répartition des hautes et des basses fréquences.
– La platitude spectrale (kurtosis) permet de connaître l’allure du spectre (plat ou très resserré autour de son barycentre).
• Les mesures de platitude d’amplitude spectrale (SFM, Spectral Flatness Measure et SCM Spectral Crest Measure) permettent de mettre en évidence le rapport entre le contenu tonal et le bruit dans une partie du spectre (Peeters 2004).
• La pente spectrale décrit le taux de décroissance du spectre.
• La fréquence de coupure est la fréquence du spectre en dessous de laquelle se trouve une certaine partie de l’énergie du spectre (généralement 95%).
• Le flux spectral mesure la variation du spectre entre deux trames consécutives (Scheirer & Slaney 1997).
• Les coefficients LPC (Linear Prediction Coding) reposent sur la modélisation du signal par un processus autorégressif et permettent de caractériser l’enveloppe du spectre.
• Les coefficients LSF (Linear Spectral Frequencies) sont une représentation alternative aux LPC et sont utiles par exemple pour estimer les fréquences des formants d’un spectre de parole (Itakura
& Saito 1970), (Paliwal 1992).
• Les coefficients OBSI et OBSIR (pour Octave Band Signal Intensities et Octave Band Si-gnal Intensities Ratios respectivement), mesurent les log-énergies dans chaque bande d’octave du spectre permettant ainsi d’avoir une information sur la structure spectrale du signal (Essid 2005).
• Les mesures de modulation d’amplitude permettent de mettre en évidence des phénomènes de variation d’intensité, comme la modulation d’énergie à 4 Hz, connue pour être caractéristique du débit syllabique.
Descripteurs cepstraux et perceptifs
Le cepstre, défini par Bogert et al. (Bogert et al. 1963), permet d’avoir une information sur les variations du spectre. Le cepstre réel correspond à “la valeur absolue au carré de la transformée de Fourier inverse du logarithme de l’amplitude au carré de la transformée de Fourier du signal x” (Norton & Karczub 2003) :
C(n) = F−1 log |F{x(n)}|2 2 . (2.2)
• Les coefficients MFCC (Mel-Frequency Cepstral Coefficients), présentés dans (Davis & Mer-melstein 1980), correspondent au cepstre réel calculé sur le spectre de Fourier exprimé sur une échelle Mel. Dans la littérature on retrouve de nombreuses extensions des MFCC, (Hossan et al. 2010), (Zhou et al. 2008), (Mubarak et al. 2006), ou de descripteurs dont le fonctionnement est directement inspiré des MFCC, comme Octave-based Spectral Constrast (Jiang et al. 2002), (West & Cox 2005).
Enfin, les descripteurs perceptifs permettent de produire des mesures intégrant le fonctionnement de la perception humaine avec par exemple les notions de loudness, mais surtout la notion de hauteur perçue (pitch) :
• La fréquence fondamentale issue de l’algorithme YIN (De Cheveigné & Kawahara 2002).
• La mesure d’apériodicité mesure le caractère tonal d’un signal.
Discussion
Il est intéressant de remarquer que même si certains descripteurs sont définis dans des domaines différents (domaine temporel, spectral ou cepstral), les caractéristiques qu’ils mettent en avant peuvent être très proches. En effet, dans (Xie et al. 2011), l’auteur fait remarquer que les descripteurs peuvent généralement être regroupés en quatre catégories : les mesures d’énergies, les statistiques spectrales, les descriptions de l’enveloppe spectrale et les mesures du pitch. Pour les descripteurs cités plus haut, nous pouvons faire les regroupements suivants :
• Mesures d’énergies : mesure RMS, modulation d’énergie à 4 Hz, premier coefficient MFCC.
• Statistiques spectrales : ZCR, centroïde spectral, étalement spectral, skewness, kurtosis, flux spec-tral, platitude spectrale, fréquence de coupure, pente spectrale.
• Enveloppe spectrale : coefficients MFCC, coefficients LPC, coefficients LSF, coefficients OBSI et
OBSIR.
• Mesures de pitch : fréquence fondamentale, mesure d’autocorrélation.
En plus de représenter dans certains cas des caractéristiques proches, certains descripteurs peuvent également être très corrélés. L’exemple le plus typique est celui de la mesure de ZCR et du centroïde spectral (Peltonen et al. 2002b), qui, bien que calculés dans des domaines différents, produisent des résultats corrélés.
Ce constat d’une possible redondance dans les descripteurs calculés nous amène à la deuxième étape de la construction d’un système de classification : la phase de sélection des descripteurs.
Sélection de descripteurs
A l’issue de la phase d’extraction de descripteurs, le signal peut être représenté par un grand nombre de descripteurs. Bien qu’une représentation la plus exhaustive possible semblerait être une situation idéale, il existe trois raisons pour lesquelles il est préférable de réduire la dimensionnalité de l’espace de représentation (i.e. nombre de descripteurs) : réduire la complexité du système global, améliorer les performances de classification et permettre une meilleure compréhension du problème.
L’objectif de la phase de sélection est de ne retenir qu’un jeu de S descripteurs parmi un ensemble de D descripteurs avec S < D. Ne retenir qu’un nombre limité de descripteurs favorisera naturellement un système de faible complexité puisque le nombre d’opérations et l’espace mémoire requis sera réduit. De plus, le modèle créé au niveau du classifieur sera plus simple et donc moins complexe si le nombre de descripteurs est restreint.
S’affranchir de certains descripteurs originaux revient à dire qu’ils peuvent être soit non pertinents, soit redondants. Dans les deux cas ils ne vont pas améliorer les performances de classification, voire plutôt les dégrader du fait de la malédiction de la dimensionnalité (Bellman et al. 1961). En effet, on peut observer en pratique un phénomène qui voit la détérioration des performances d’un classifieur lorsqu’on ajoute des descripteurs pour un nombre d’exemples d’apprentissage fini. Ce comportement est paradoxal puisque l’ajout d’informations, qui devrait aider à résoudre le problème, se révèle être néfaste pour la construction du modèle. La conséquence d’un point de vue pratique de la malédiction de la dimensionnalité est que lors de la construction d’un système d’apprentissage/classification, l’expérimentateur ne devrait conserver qu’un nombre limité de descripteurs pertinents, lorsque l’ensemble d’apprentissage est restreint. Bien que la relation exacte entre l’erreur de prédiction, le nombre d’exemples d’apprentissage, le nombre de descripteurs et le nombre de paramètres soit difficile à établir, on retrouve des règles de conduite permettant de limiter l’apparition de ce phénomène. Par exemple, Jain et Chandrasekaran dans (Jain
& Chandrasekaran 1982) proposent, pour un nombre d’exemples d’apprentissage N et un nombre de descripteurs retenus D, le critère suivant : ND > 10 .
Enfin, d’un point de vue pratique il est intéressant de ne travailler qu’avec peu de descripteurs car cela peut amener à une meilleure compréhension du problème par l’interprétation physique des descripteurs. En analyse statistique, l’utilisation d’outils de réduction de dimension permet justement d’identifier les variables les plus importantes pour un problème donné et de déceler celles qui n’ont au contraire, aucuneSélection de descripteurs
influence. Cette analyse sera d’autant plus intéressante si le nombre de descripteurs à analyser est réduit.
Toute la question réside dans la manière de déterminer quels attributs seront plus pertinents. Comment mesurer la pertinence d’un descripteur ? Comment estimer la pertinence d’un ensemble de descripteurs ? Nous discutons par la suite les méthodes couramment utilisées.
On peut distinguer deux modes de sélection de descripteurs, les méthodes exploitant les descripteurs indépendamment du classifieur, et les méthodes prenant en compte l’interaction avec le classifieur. On présente par la suite quelques méthodes remarquables.Sélection indépendante du classifieur
Les méthodes qui procèdent indépendamment du classifieur sont appelées filtres et peuvent être vues comme une étape de prétraitement.
L’une des techniques les plus populaires permettant d’éliminer l’information redondante et de com-prendre l’interaction entre les descripteurs est l’Analyse en Composantes Principales (PCA, Prin-cipal Component Analysis) (Pearson 1901), (Hotelling 1933), également appelée transformation de Karhunen-Loève. La PCA permet de caractériser des données d’un espace à D dimensions vers un sous-espace de dimension S (avec S < D) en minimisant la perte d’information due à la projection (en maximisant la variance projetée) (Shlens 2014).
En partant d’un jeu de descripteurs originaux X de dimension N × D contenant N observations et D descripteurs, le principe de la PCA repose sur le calcul des vecteurs propres de la matrice de covariance de X. La transformation permettant de réduire le nombre de descripteurs à S avec S ≤ D est obtenue
par la transformation :
Y =XH, (2.3)
où H la matrice D × S de transformation linéaire dont les colonnes sont les vecteurs propres et Y est la matrice des descripteurs transformés de dimension N × S. Lorsque le nombre de descripteurs à retenir S est connu, il suffit de ne conserver que les descripteurs ayant les plus grandes valeurs propres. Lorsque S n’est pas fixé à priori, un critère de sélection consiste à ne garder que les descripteurs contenant la plus grande partie de la variance totale (on trouve par exemple 95% de la variance totale (Ntalampiras & Fakotakis 2012)).
On remarque toutefois que la transformation appliquée ici est linéaire, or il existe des extensions à ces méthodes pour des transformations non linéaires, comme avec l’Analyse en Composantes Non-Linéaires (ou Kernel PCA) (Schölkopf et al. 1998), (Fukunaga 2013). Aussi, il est à noter que les descripteurs qui pourront être utilisés dans le cadre d’une tâche de classification seront les descripteurs transformés et non originaux. La nécessité d’une transformation demande donc une étape de calcul supplémentaire.
Enfin, la PCA peut être vue comme une méthode de sélection des descripteurs non-supervisée puisque la classe à laquelle appartiennent les données n’est jamais exploitée. La PCA permet d’éliminer la re-dondance d’information et d’extraire les variables les plus descriptives mais n’apporte pas d’information sur le pouvoir discriminant des données, ce qui dans le cadre d’une tâche de classification, serait le plus souhaitable.
Table des matières
Remerciements
Résumé
Abstract
Notations
1 Introduction générale
1.1 Présentation du sujet
1.2 Axes d’étude
1.3 Résumé des contributions
1.4 Structure du document
2 État de l’art
2.1 Introduction
2.2 Caractérisation du signal audio
2.2.1 Descripteurs temporels
2.2.2 Descripteurs spectraux
2.2.3 Descripteurs cepstraux et perceptifs
2.2.4 Discussion
2.3 Sélection de descripteurs
2.3.1 Sélection indépendante du classifieur
2.3.2 Sélection liée au classifieur
2.4 Méthodes de classification
2.4.1 Méthodes génératives
2.4.2 Méthodes discriminatives
2.5 Construction d’un modèle d’apprentissage
2.5.1 Capacité de généralisation et sur-apprentissage
2.5.2 Protocole de validation
2.5.3 Mesures de performance
2.6 Conclusions
3 Classification audio temps réel
3.1 Propriétés d’un système temps réel
3.1.1 Un prise de décision rapide
3.1.2 Un système à faible latence
3.1.3 Sévérité et criticité des systèmes temps réel
3.2 État de l’art de la classification audio temps réel
3.2.1 Approches pour une classification faible latence
3.2.2 Faible complexité
3.3 Discussion
3.3.1 Bilan des systèmes temps réel
3.3.2 Perspectives
4 Protection acoustique
4.1 Introduction
4.2 Protection acoustique : positionnement du problème
4.2.1 Description des signaux
4.2.2 Origine des perturbations
4.3 Sur la perception des sons
4.3.1 Échelle de bruits
4.3.2 Perception tonale
4.3.3 Temps de réaction
4.3.4 Conséquences sur l’audition
4.3.5 Conclusions sur le problème
4.4 État de l’art sur les méthodes de protection acoustique
4.4.1 Réglementations et normes en vigueur
4.4.2 Méthodes dédiées
4.4.3 Techniques de détection
4.4.4 Conclusions sur l’état de l’art
4.5 Proposition d’une méthode de protection audio
4.5.1 Résumé du problème de classification
4.5.2 Principe des descripteurs
4.5.3 Comportement des descripteurs
4.6 Évaluations
4.6.1 Bases de données audio
4.6.2 Protocole
4.6.3 Résultats
4.7 Conclusions
5 Intermède
5.1 Introduction
5.2 Corpus audio pour la classification parole/musique/mix
5.2.1 Classes audio
5.2.2 Construction de la base audio
5.3 Protocole
5.3.1 Descripteurs audio et système de classification
5.3.2 Mesures de performances
5.4 Comparaison des paradigmes de classification
5.4.1 Classification à la trame
5.4.2 Classification sur segment
5.5 Conclusions
6 Intégration temporelle
6.1 Introduction
6.2 Quelles méthodes pour traiter l’information temporelle ?
6.3 Fonctions d’intégration temporelle des descripteurs
6.3.1 Regroupement (stacking)
6.3.2 Statistiques
6.3.3 Caractéristiques spectrales
6.3.4 Modèles autorégressifs
6.3.5 Autres modélisations
6.4 Modèles d’apprentissage pour des données temporelles
6.4.1 Modèles de Markov Cachés (HMM)
6.4.2 SVM et noyaux temporels
6.5 Positionnement du problème
6.5.1 Choix de l’approche pour l’intégration temporelle
6.5.2 Discussion sur l’utilisation de l’intégration temporelle
6.6 Méthodologies pour l’intégration temporelle des descripteurs
6.7 Evaluation Parole/Musique/Mix
6.7.1 Protocole d’évaluation
6.7.2 Intégration temporelle sur une fenêtre fixe
6.7.3 Intégration temporelle à horizon variable
6.8 Conclusions
7 Intégration temporelle par représentation symbolique
7.1 Introduction
7.1.1 Anscombe’s quartet
7.1.2 Exemples de motifs caractéristiques à partir de données audio
7.2 Méthodes de représentation des séries temporelles
7.2.1 Piecewise Aggregate Approximation
7.2.2 SAX, Symbolic Aggregate approXimation
7.2.3 The clipped representation
7.2.4 Mesures de similarité
7.2.5 Conclusions sur les méthodes de représentations
7.3 Recherche de motifs temporels pour la classification audio
7.3.1 Positionnement du problème
7.3.2 Adaptation de la méthode de représentation SAX
7.3.3 Recherche de motifs discriminants
7.4 Exploitation des motifs temporels dans un cadre d’apprentissage automatique
7.4.1 Problématique de l’utilisation de motifs temporels
7.4.2 Utilisation de manière corrective : SVM + DT
7.5 Conclusions
8 Conclusions
Bibliographie
Télécharger le rapport complet