Décomposition de spectrogrammes musicaux informée par des modèles de synthèse spectrale

Pour un être humain, il est généralement facile de décrire un extrait de musique : il est assez aisé d’identifier grossièrement les instruments qui le composent, d’en donner le genre, de donner une idée du tempo, et pour un auditeur un peu plus avancé, il est même possible de donner des informations beaucoup plus détaillées, comme de décrire les notes que joue chaque instrument. Ce genre de tâches peut s’avérer cependant beaucoup plus difficile pour un ordinateur, les signaux musicaux étant par nature complexes et la perception de ceux-ci étant difficile à appréhender. De nombreux travaux cherchent ainsi à extraire automatiquement de l’information d’un signal musical : information sur le rythme et le tempo [Scheirer, 1998], sur le genre du morceau [Allamanche et al., 2004], sur les instruments présents [Essid, 2006], sur l’harmonie [Oudre et al., 2009], sur la mélodie [Weil et al., 2009], sur la position temps/fréquence de toutes les notes [Emiya et al., 2010]. . . Tous ces travaux relèvent du domaine de recherche de l’extraction automatique d’information de la musique (souvent abrégé MIR, de l’anglais : Music Information Retrieval). L’être humain est également capable de focaliser son attention sur un unique instrument dans un orchestre. Le domaine de recherche de la séparation de sources tente de reproduire cette capacité en essayant de séparer les signaux des différents instruments en présence [Virtanen, 2007, Smaragdis et al., 2007]. Ces deux domaines de recherche (MIR et séparation de sources) ont tendance à se rapprocher et de plus en plus de travaux cherchent à allier les deux domaines, c’est-àdire d’une part l’aspect représentation d’information compacte de haut-niveau capable de décrire l’extrait considéré et d’autre part l’aspect manipulation des divers éléments en présence, par exemple par le biais d’une représentation intermédiaire dite « mi-niveau » permettant des applications dans les deux domaines [Durrieu et al., 2011]. Cette thèse s’inscrit dans cette tendance : son principal objectif est de proposer des méthodes de décomposition de signaux sonores musicaux reposant sur les redondances qui y sont naturellement présentes et sur lesquelles s’appuie tout auditeur pour « comprendre » ces signaux. Ces décompositions sont construites en introduisant des modèles génératifs de spectrogrammes basés sur des modèles simples de synthèse sonore. Cette thèse propose donc des décompositions intelligentes des signaux musicaux qui permettent d’obtenir une représentation intermédiaire en « atomes sonores », éléments constitutifs élémentaires de la musique. Ce type de représentation de la musique peut avoir de nombreuses applications notamment en séparation de sources sonores, en transcription automatique de partition ou dans le domaine de la transformation du son.

Décomposition des signaux musicaux

Les signaux musicaux possèdent de très importantes redondances et peuvent être généralement décrits avec beaucoup moins d’informations que leur forme d’onde : un morceau de musique est en effet généralement composé d’événements musicaux (par exemple des notes de musique, des sons de percussions…) qui se répètent au cours du temps. Notre perception de la musique est majoritairement influencée par ces événements (qui sont définis par une connaissance a priori de la musique que nous avons l’habitude d’écouter) et leur apparition répétée au cours du morceau. La perception est en effet principalement basée sur ce qu’on attend : on arrive à avoir une perception cohérente de la musique et à structurer cette perception grâce à la redondance qui y est présente. Une représentation proche de ce qui est perçu en termes d’événements sonores permet donc de comprendre et d’analyser la musique comme le ferait une personne. Il est donc très intéressant de pouvoir obtenir une telle représentation à partir d’une simple forme d’onde .

Les transformées temps/fréquence de type spectrogramme permettent de faire apparaître en partie les redondances perceptives même si celles-ci restent complexes.

De nombreux travaux cherchent à extraire automatiquement une structure qui explique bien le signal étudié tout en ayant réduit considérablement la quantité d’informations pour le décrire. On peut notamment citer deux types de méthodes : les méthodes de décomposition parcimonieuse [Mallat et Zhang, 1993, Chen et al., 1998] qui cherchent à décomposer le signal sur un ensemble de signaux de base bien choisis pour pouvoir décrire le signal étudié, et les méthodes de factorisation, telles que la Factorisation en matrices non-négatives (NMF) [Lee et Seung, 1999], qui cherchent à extraire automatiquement des structures redondantes qui apparaissent dans les données analysées et qui peuvent donc être interprétées comme des méthodes de décomposition parcimonieuse pour lesquelles le dictionnaire est appris automatiquement à partir du signal. C’est sur ce deuxième type de méthodes que nous nous focalisons dans cette thèse.

Si les méthodes de factorisation s’avèrent puissantes et robustes pour décomposer des signaux composés d’objets stationnaires, leur utilisation est plus délicate lorsqu’interviennent des éléments présentant des variations au cours du temps : plusieurs atomes sont alors nécessaires pour représenter un seul élément et il est généralement difficile de regrouper correctement ces atomes. De plus, même lorsque les éléments constitutifs du spectrogramme sont à peu près stationnaires, il est souvent utile de guider (d’« informer ») la décomposition afin d’obtenir une description réellement utilisable. De nombreux travaux ont donc cherché à dépasser ces limitations des méthodes de factorisation en proposant des techniques de décomposition alternatives.

Ainsi plusieurs types de décompositions ont été proposés : d’une part des décompositions utilisant des modèles physiques sous-jacents pour représenter les éléments des spectrogrammes musicaux, ce type de décomposition aboutissant généralement à des représentations « mi-niveau » qui peuvent être exploitées dans diverses applications, d’autre part des méthodes statistiques proposées récemment qui utilisent notamment des modèles de Markov cachés afin de structurer les variations temporelles.

Table des matières

1 Introduction
1.1 Décomposition des signaux musicaux
1.2 Contexte
1.3 Factorisation et modèles de synthèse
1.3.1 Synthèse source/filtre
1.3.2 Synthèse additive
1.3.3 Synthèse par table d’onde
1.4 Structure du document
2 Factorisation en matrices non-négatives
2.1 Présentation générale
2.1.1 Modèle
2.1.2 Fonction de coût
2.1.2.1 Divergences courantes
2.1.2.2 Divergence de Bregman et β-divergence
2.2 Unicité
2.2.1 Changement d’échelle et permutation
2.2.2 Extension/rétrécissement du cône polyédrique des solutions
2.2.3 Problème lié : impossibilité d’une factorisation exacte
2.3 Décomposition de spectrogrammes musicaux
2.3.1 Principe
2.3.2 Choix de l’exposant
2.3.2.1 Cas à deux composantes « indépendantes »
2.3.2.2 Autres cas
2.3.3 NMF et séparation de sources
2.4 Modélisation probabiliste
2.4.1 Modèles génératifs
2.4.1.1 Modèle gaussien
2.4.1.2 Modèle de Poisson
2.4.2 Analyse probabiliste en composantes latentes (PLCA)
2.5 Algorithmes
2.5.1 Algorithmes divers
2.5.1.1 Descente de gradient projeté
2.5.1.2 Méthode de Newton projetée
2.5.1.3 Moindres carrés alternés
2.5.1.4 Méthode non contrainte par reparamétrisation du problème
2.5.2 Mises à jour multiplicatives
2.5.2.1 Approche simple
2.5.2.2 Algorithme Majoration/Minimisation (MM)
2.5.2.3 Algorithme Espérance/Maximisation (EM)
2.5.2.4 Intérêts des algorithmes multiplicatifs
2.6 Variantes de la NMF et ajout de contraintes
2.6.1 Décompositions invariantes par translation
2.6.1.1 Décomposition invariante par translation temporelle : NMFD
2.6.1.2 Décomposition invariante par translation fréquentielle
2.6.2 Contraintes
2.7 Limitations de la NMF, variations temporelles
2.7.1 Variations d’enveloppes spectrales
2.7.2 Variations de fréquence fondamentale
3 Modélisation des variations d’enveloppe spectrale : modèle source/filtre et NMF
3.1 Modèle
3.1.1 Activation temps/fréquence
3.1.2 Paramétrisation source/filtre
3.2 Algorithme
3.2.1 Mise à jour des atomes
3.2.2 Mise à jour des activations globales
3.2.3 Mise à jour des filtres
3.2.4 Description globale et implémentation pratique
3.2.5 Dimension de l’espace des paramètres
3.2.6 Complexité algorithmique
3.2.7 Implémentation et choix de β
3.3 Exemples
3.3.1 Guimbarde
3.3.1.1 Description du signal décomposé
3.3.1.2 Expérience et résultat
3.3.2 Didgeridoo
Conclusion

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *