Télécharger le fichier original (Mémoire de fin d’études)
Présentation du sujet
Ce document présente les travaux réalisés pendant mon doctorat en convention CIFRE à Orange Labs. Ces recherches s’inscrivent dans une démarche d’amélioration de la qualité des services conversationnels en s’intéressant tout particulièrement à la problématique de la classification audio sous contraintes de faible latence.
Dans le domaine des télécommunications, les services conversationnels font usage de nombreux al-gorithmes permettant de traiter le signal audio. Codage, réduction de bruit ou protection acoustique sont autant de techniques permettant d’améliorer le confort d’écoute de l’utilisateur final. Bien que ces techniques puissent généralement fonctionner quelle que soit la nature du signal audio, il est cependant possible d’améliorer la qualité de ces traitements lorsque l’on connaît plus précisément le type de signal à traiter. L’exemple le plus typique dans le domaine des télécommunications concerne le codage audio. Afin que le signal puisse être transporté efficacement sur le réseau, il est tout d’abord compressé selon une cer-taine méthode de codage. Cependant, il existe des techniques de codage différentes selon que l’on souhaite traiter un signal de parole ou un signal de musique. Afin d’obtenir une qualité audio optimale, une étape préalable d’identification du signal est alors nécessaire. De la même manière, les algorithmes de protection acoustique destinés à éliminer des signaux gênants doivent en premier lieu identifier précisément quand ces signaux gênants apparaissent, sans quoi une dégradation du signal pourrait être perçue.
Dans le but d’appliquer un traitement sur mesure, il est donc nécessaire d’avoir recours à une classi-fication audio. La classification audio consiste à associer certaines portions du signal à l’une des classes audio prédéfinies (classes parole, classe musique etc.) afin d’avoir une vision structurée du signal. Ces informations serviront par la suite à guider le choix du traitement audio.
La classification audio est un sujet qui a beaucoup mobilisé les chercheurs depuis plusieurs années, en l’appliquant à des domaines divers comme l’analyse musicale, la reconnaissance de scènes auditives ou encore l’archivage sonore. Les systèmes mis en place se distinguent alors selon leurs applications (e.g. quels signaux cherche-t-on à reconnaître ?), mais également selon leurs caractéristiques techniques : quels descripteurs sont utilisés ?, quelle stratégie de classification est adoptée ? etc.
Cependant, on remarque qu’une grande majorité des systèmes de classification ne font pas état de contraintes temporelles : le signal peut être parcouru librement afin de rassembler les informations né-cessaires pour la prise de décision (on parle alors d’une classification hors ligne). Or, on se place ici dans un contexte de classification audio pour des applications liées au domaine de télécommunications. Les conditions d’utilisation sont alors plus sévères : les algorithmes fonctionnent en temps réel et l’analyse du signal et le traitement associé se font à la volée, au fur et à mesure que le signal audio est transmis.
De fait, l’étape de classification audio doit également répondre aux contraintes du temps réel, ce qui affecte son fonctionnement à plusieurs niveaux. Tout d’abord, on est confronté à un problème de causalité et, comparé aux systèmes de classification hors ligne, il n’est pas possible d’avoir à disposition l’intégra-lité du signal. Ici, la prise de décision sera effectuée en exploitant seulement les observations courantes et passées. La première conséquence des contraintes temps réel est donc la quantité d’informations nécessai-rement limitée pour prendre une décision, comparée à un système hors ligne. Ensuite, un système temps réel se doit de répondre à une certaine réactivité, dans le sens où dès qu’un événement acoustique appa-raît, le système doit permettre de le prendre en compte dans des délais imposés. Par exemple, certains systèmes de classification requièrent qu’un événement acoustique soit détecté au plus tard 50 ms après son apparition. On précise également que cette contrainte n’est pas qu’une question de temps de calcul mais bel et bien de conception du système de classification.
Ces contraintes temporelles influent donc fortement sur la manière d’opérer la classification et c’est la gestion de ces contraintes qui nous importe ici.
Axes d’étude
Les recherches s’articulent autour de plusieurs grandes questions qui seront adressées dans ce docu-ment.
• Quelles stratégies de classification adopter pour faire face aux contraintes tempo-relles ?
En s’appuyant sur les travaux antérieurs visant à mettre en place des systèmes de classification audio respectant des contraintes temporelles, on remarquera deux paradigmes de classification : une classification à la trame et une classification sur segment. La classification à la trame consiste, comme son nom l’indique, à prendre une décision en ne considérant que les informations issues de la trame courante. La classification sur segment désigne une prise de décision en exploitant les informations issues de la trame courante et de quelques trames précédentes. On peut donc s’interroger sur les conditions d’utilisation de ces deux approches.
• Quelles sont les limites de ces stratégies de classification ?
Une classification à la trame et une classification sur segment peuvent-elles être utilisées quel que soit le contexte ? Est-il possible d’obtenir des performances convenables avec ces deux approches ? Quelle mode de classification permet de produire le meilleur rapport entre performance de classi-fication et réactivité ?
• Quelles techniques employer pour extraire l’information la plus pertinente à partir d’une quantité de signal limitée ?
Dans le cadre de la classification sur segment, on a recours au processus d’intégration temporelle qui consiste à exploiter l’évolution des descripteurs plutôt que les descripteurs eux-mêmes. Plusieurs techniques ont été proposées pour dériver une information pertinente à partir de cette évolution temporelle, principalement basée sur des modélisations statistiques, mais serait-il possible de pro-poser d’autres approches ?
Résumé des contributions
Au cours de l’exploration de ce sujet qu’est la mise en place d’un système de classification sous contraintes de faible latence, nous avons apporté les contributions suivantes.
Tout d’abord, dans le cadre des projets de recherche à Orange Labs nous avons pu contribuer au développement d’un nouvel algorithme de protection acoustique, visant à supprimer des signaux poten-tiellement gênants pour l’auditeur final. Les contraintes temporelles sont ici très fortes puisque dans certains cas, l’exposition à ces signaux peut avoir des conséquences graves pour l’audition. Les signaux doivent alors être identifiés puis supprimés en quelques dizaines de millisecondes. Il est dont nécessaire de mettre en place un système capable d’identifier dans des délais très brefs les signaux perturbateurs. Pour cette application, nous avons proposé l’utilisation de trois descripteurs audio permettant de capter précisément les caractéristiques des signaux à reconnaître. Parmi ces trois descripteurs, un descripteur de stabilité fréquentielle a été développé spécialement pour cette tâche de classification. Les performances du système final montrent un taux de détection élevé tout en conservant un taux de fausse alarme très bas, et ce, quelles que soient les conditions d’utilisation.
Ce projet de protection acoustique nous a servi de point de départ en étudiant un système de clas-sification à la trame. Par la suite, nous nous sommes également intéressés aux systèmes de classification sur segment et faisant donc intervenir le processus d’intégration temporelle des descripteurs. Les mé-thodes d’intégration temporelle que l’on retrouve dans la littérature ont été principalement évaluées pour des systèmes de classification hors ligne. Nous avons donc mené une évaluation détaillée des principales méthodes d’intégration temporelle en observant leur impact lors d’une classification faible latence. Par ailleurs, nous avons établi plusieurs méthodologies pour l’utilisation de l’intégration temporelle afin de rétablir le lien qui existe entre les descripteurs et les fonctions d’intégration temporelle.
Le processus d’intégration temporelle, qui repose principalement sur l’extraction de statistiques sur les séries temporelles des descripteurs, offre des performances satisfaisantes. Cependant, nous proposons de nous intéresser à une autre manière d’exploiter l’évolution temporelle des descripteurs. L’approche propo-sée s’appuie sur l’utilisation des représentations symboliques permettant de capter la structure temporelle des séries de descripteurs. L’idée étant ensuite de rechercher des motifs temporels caractéristiques des différentes classes audio. Le système de classification mis en place, combinant l’utilisation des fonctions d’intégration temporelle classiques et l’utilisation de motifs temporels, permet d’améliorer un peu plus les performances de classification, montrant ainsi que l’emploi de l’information basée sur la morphologie des séries temporelles est prometteur.
Le document présenté ici est organisé autour de six chapitres.
Tout d’abord dans le chapitre 2 nous rappelons les principaux concepts liés à la classification audio ainsi que les différents outils d’apprentissage automatique qui seront utilisés tout au long de cette étude. Dans le chapitre 3, on s’intéresse à la notion de temps réel et on affine un peu plus l’étude des systèmes de classification audio en s’intéressant plus particulièrement à ceux développés pour répondre à des contraintes temporelles. C’est de cette étude qu’on réussira à dégager deux paradigmes de classification : la classification à la trame et la classification sur segment.
Le chapitre 4 décrit une première tâche de classification avec des contraintes temporelles fortes : la protection acoustique. L’enjeu ici est de réussir à détecter des signaux gênants dans des délais très courts. On présente dans ce chapitre le contexte particulier de cette étude, les mécanismes perceptifs qui expliquent pourquoi ces signaux peuvent représenter un risque pour l’auditeur puis, une recherche des travaux antérieurs nous donnera quelques pistes pour concevoir un système de détection efficace. Par la suite on décrit la technique proposée et en particulier les trois descripteurs mis en avant. La pertinence de l’algorithme développé est soutenue par une évaluation détaillée et en comparaison avec un système de détection de l’état de l’art.
Dans le chapitre 5, on discute des limites d’une classification à la trame comparée à une classification sur segment. On s’appuie pour cela sur un changement de tâche de classification, à savoir la classification parole/musique/mix. Les conclusions de cette étude intermédiaire nous engagent alors à nous intéresser
à la classification sur segment et plus particulièrement au processus d’intégration temporelle des descrip-teurs.
Tout le chapitre 6 est consacré à l’étude de l’intégration temporelle en présentant les différentes techniques disponibles pour extraire à partir de l’évolution temporelle des descripteurs, l’information la plus pertinente pour la tâche de classification. Outre les techniques d’intégration temporelle, on s’intéresse également à la méthodologie générale de la mise en place du processus d’intégration temporelle. On évalue différentes méthodologies pour montrer le lien qui existe en les descripteurs et les fonctions d’intégration temporelle.
Enfin, dans le chapitre 7, on propose une manière différente d’exploiter l’information temporelle. En partant du constat qu’une description des séries temporelles reposant uniquement sur des statistiques n’est pas toujours suffisante, on introduit l’utilisation des représentations symboliques qui permettent, elles, de capter la morphologie des séries temporelles. On détaille l’adaptation de la représentation sym-bolique choisie, représentation nommée SAX, et on propose une méthode permettant d’intégrer les motifs temporels avec les techniques d’intégration temporelle classiques.
Le dernier chapitre dresse le bilan de ces travaux et propose quelques pistes d’étude pour prolonger ces recherches.
Table des matières
Remerciements
Résumé
Abstract
Notations
1 Introduction générale
1.1 Présentation du sujet
1.2 Axes d’étude
1.3 Résumé des contributions
1.4 Structure du document
2 État de l’art
2.1 Introduction
2.2 Caractérisation du signal audio
2.2.1 Descripteurs temporels
2.2.2 Descripteurs spectraux
2.2.3 Descripteurs cepstraux et perceptifs
2.2.4 Discussion
2.3 Sélection de descripteurs
2.3.1 Sélection indépendante du classifieur
2.3.2 Sélection liée au classifieur
2.4 Méthodes de classification
2.4.1 Méthodes génératives
2.4.2 Méthodes discriminatives
2.5 Construction d’un modèle d’apprentissage
2.5.1 Capacité de généralisation et sur-apprentissage
2.5.2 Protocole de validation
2.5.3 Mesures de performance
2.6 Conclusions
3 Classification audio temps réel
3.1 Propriétés d’un système temps réel
3.1.1 Un prise de décision rapide
3.1.2 Un système à faible latence
3.1.3 Sévérité et criticité des systèmes temps réel
3.2 État de l’art de la classification audio temps réel
3.2.1 Approches pour une classification faible latence
3.2.2 Faible complexité
3.3 Discussion
3.3.1 Bilan des systèmes temps réel
3.3.2 Perspectives
4 Protection acoustique
4.1 Introduction
4.2 Protection acoustique : positionnement du problème
4.2.1 Description des signaux
4.2.2 Origine des perturbations
4.3 Sur la perception des sons
4.3.1 Échelle de bruits
4.3.2 Perception tonale
4.3.3 Temps de réaction
4.3.4 Conséquences sur l’audition
4.3.5 Conclusions sur le problème
4.4 État de l’art sur les méthodes de protection acoustique
4.4.1 Réglementations et normes en vigueur
4.4.2 Méthodes dédiées
4.4.3 Techniques de détection
4.4.4 Conclusions sur l’état de l’art
4.5 Proposition d’une méthode de protection audio
4.5.1 Résumé du problème de classification
4.5.2 Principe des descripteurs
4.5.3 Comportement des descripteurs
4.6 Évaluations
4.6.1 Bases de données audio
4.6.2 Protocole
4.6.3 Résultats
4.7 Conclusions
5 Intermède
5.1 Introduction
5.2 Corpus audio pour la classification parole/musique/mix
5.2.1 Classes audio
5.2.2 Construction de la base audio
5.3 Protocole
5.3.1 Descripteurs audio et système de classification
5.3.2 Mesures de performances
5.4 Comparaison des paradigmes de classification
5.4.1 Classification à la trame
5.4.2 Classification sur segment
5.5 Conclusions
6 Intégration temporelle
6.1 Introduction
6.2 Quelles méthodes pour traiter l’information temporelle ?
6.3 Fonctions d’intégration temporelle des descripteurs
6.3.1 Regroupement (stacking)
6.3.2 Statistiques
6.3.3 Caractéristiques spectrales
6.3.4 Modèles autorégressifs
6.3.5 Autres modélisations
6.4 Modèles d’apprentissage pour des données temporelles
6.4.1 Modèles de Markov Cachés (HMM)
6.4.2 SVM et noyaux temporels
6.5 Positionnement du problème
6.5.1 Choix de l’approche pour l’intégration temporelle
6.5.2 Discussion sur l’utilisation de l’intégration temporelle
6.6 Méthodologies pour l’intégration temporelle des descripteurs
6.7 Evaluation Parole/Musique/Mix
6.7.1 Protocole d’évaluation
6.7.2 Intégration temporelle sur une fenêtre fixe
6.7.3 Intégration temporelle à horizon variable
6.8 Conclusions
7 Intégration temporelle par représentation symbolique
7.1 Introduction
7.1.1 Anscombe’s quartet
7.1.2 Exemples de motifs caractéristiques à partir de données audio
7.2 Méthodes de représentation des séries temporelles
7.2.1 Piecewise Aggregate Approximation
7.2.2 SAX, Symbolic Aggregate approXimation
7.2.3 The clipped representation
7.2.4 Mesures de similarité
7.2.5 Conclusions sur les méthodes de représentations
7.3 Recherche de motifs temporels pour la classification audio
7.3.1 Positionnement du problème
7.3.2 Adaptation de la méthode de représentation SAX
7.3.3 Recherche de motifs discriminants
7.4 Exploitation des motifs temporels dans un cadre d’apprentissage automatique
7.4.1 Problématique de l’utilisation de motifs temporels
7.4.2 Utilisation de manière corrective : SVM + DT
7.5 Conclusions
8 Conclusions
Bibliographie