Approches aveugle et oracle
Pour évaluer le potentiel (et donc les possibilités d’amélioration) de chaque méthode, nous avons comparé les résultats obtenus avec une approche aveugle et avec une approche oracle. L’approche aveugle consiste à estimer le modèle directement depuis le mélange de sources, sans utiliser d’à priori sur les sources isolées. L’approche oracle, quant à elle, consiste à évaluer la meilleure performance possible de chaque technique. Les paramètres du modèle sont appris sur les sources séparées. Ainsi, pour les méthodes CNMF, CNMF-LR et HRNMF, il n’y a pas a proprement parler d’étape de séparation puisque les estimateurs des sources selon ces modèles sont calculés uniquement en utilisant les sources séparées et non le mélange. Pour la méthode NMF-Wiener (et donc en conséquence pour les approches consistantes qui utilisent NMF-Wiener comme initialisation), les modèles NMF sont appris sur les sources séparées, puis les sources sont estimées en appliquant un filtrage de Wiener au mélange : c’est ce qui correspond au bloc « séparation » sur le schéma de la figure 3.1 qui illustre ces approches. La comparaison entre les approches aveugle et oracle nous informe sur le potentiel et les possibilités d’amélioration de chaque méthode. Il est à noter qu’il existe une approche intermédiaire, dite semi-supervisée. Par exemple, le dictionnaire d’atomes spectraux W peut être appris au préalable, et seules les activations H sont estimées. Cette approche, utile en pratique lorsqu’on connaît par exemple l’instrument qui a servi à produire les sons, n’est pas étudiée ici car on s’intéresse au potentiel de chaque méthode : l’approche oracle nous fournit cette information.
Données
Plusieurs jeux de données ont été utilisés : — Des mélanges synthétiques de sinusoïdes harmoniques amorties, dont les amplitudes, les phases à l’origine, les fréquences et les coefficients d’amortissement sont aléatoires. Dans la moitié des cas, on force un recouvrement temps-fréquence. — La base de données MAPS (MIDI Aligned Piano Sounds) Emiya et al. (2010) fournit de nombreuses données qui permettent de fabriquer des mélanges de sons de piano. Afin de tester les modèles sur des données réelles, nous avons considéré 30 mélanges de deux notes de piano tirées aléatoirement dans la base de données MAPS. — Enfin, nous avons testé les modèles sur un court extrait MIDI d’un peu moins de 2 secondes. Il est composé de plusieurs occurrences de trois notes de basse et d’un accord de guitare, chacun de ces évènements étant représenté par un atome NMF (ainsi K = 4). Pour les données synthétiques et de piano, chaque source est activée seule successivement, puis les deux sources sont ensuite activées simultanément. Un exemple de spectrogrammes de mélanges synthétiques (avec et sans recouvrement) est donné sur la figure 3.2. Ces signaux sont simples. Ce choix de notre part est volontaire, car nous avons voulu utiliser des données qui permettent un contrôle précis des résultats. Notons enfin que dans ce chapitre, chaque atome NMF correspond à une source : nous ne sommes donc pas confrontés au problème du clustering de ces atomes.
Protocole
Il est important de préciser que pour le modèle HRNMF, nous avons choisi un ordre de filtrage autoregressif de 1 pour toutes les sources et les bandes de fréquences. Ainsi, ce modèle utilise deux fois plus de paramètres (dictionnaire d’atomes W et coefficients de filtrage a) que la NMF standard (W seulement). Pour que la comparaison soit plus équitable, nous avons donc calculé la TFCT avec deux fois plus de précision en travaillant sur la NMF standard. Notons que la CNMF utilise beaucoup plus de paramètres que les autres modèles (puisque les phases sont libres), mais il n’est pas nécessaire de régler le nombre de paramètres finement puisque comme nous le verrons, ce modèle fournit de moins bons résultats que les autres, alors qu’il utilise plus de paramètres. Les modèles NMF (avec divergence KL) et CNMF sont estimés par 30 itérations de règles de mise à jour multiplicatives, et la reconstruction de phase est effectuée par 50 itérations (dans le cas des procédures itératives de GL et de LR). HRNMF est initialisé avec 30 itérations de NMF et estimé par 30 itérations de l’algorithme VBEM (pour l’approche aveugle) et 10 itérations de cet algorithme pour chaque source (pour l’approche oracle). Ces nombres d’itérations sont choisis de sorte que la performance n’est pas améliorée au-delà. Enfin, les scores sont calculés sur 30 initialisations aléatoires afin de garantir la robustesse des résultats. Afin de mesurer la qualité de la séparation de sources, nous utilisons la boîte à outils BSS Eval Vincent et al. (2006), un ensemble de critères objectifs qui sont adaptés à cette problématique. Notons que la boîte à outils PEASS Emiya et al. (2011) a fourni des résultats similaires à BSS Eval pour nos tests, nous avons donc ici retenu la première pour un critère de rapidité de calcul (cf. chapitre 2 section 2.4).
Initialisation et algorithme pour HRNMF
Le modèle HRNMF requiert une initialisation bien choisie pour produire des résultats satisfaisants, probablement à cause du grand nombre de minima locaux de la fonction de coût. Nous testons donc différentes initialisations : aléatoire, par KLNMF Lee et Seung (2001) ou par ISNMF Févotte et al. (2009), calculés à l’aide de règles multiplicatives (MUR). Nous comparons également les algorithmes Espérance-Maximisation (EM) Badeau (2011) et EM variationnel Bayésien (VBEM) Badeau et Plumbley (2014). Les tests sont effectués sur des mélanges de notes de piano. Précisons que pour cette expérience, ainsi que pour toutes celles conduites dans ce manuscrit, les simulations sont effectuées sur un ordinateur muni d’un CPU cadencé à 3.6 GHz et de 16 Go de RAM. valeur en gras. Nous remarquons qu’initialiser HRNMF avec une NMF améliore significativement les résultats par rapport à une initialisation aléatoire. Le choix d’une NMF avec divergence KL ou IS ne semble pas influencer grandement les résultats. Nous remarquons également que l’algorithme VBEM fournit des résultats similaires à EM, avec un gain très important en matière de temps de calcul. Nous utiliserons donc pour le reste de notre étude l’algorithme VBEM avec une initialisation KLNMF afin d’estimer le modèle HRNMF.
Résultats de séparation de sources
Mélanges synthétiques
Les résultats des tests sur les données synthétiques sont présentés sur la figure 3.3. Les boîtes à moustaches représentent les résultats de l’approche aveugle : chaque boîte à moustaches est constituée d’une ligne centrale indiquant la médiane des indicateurs, de bords inférieurs et supérieurs indiquant les 1 er et 3 eme quartiles, et les moustaches indiquent les valeurs extrémales. Les étoiles indiquent la performance de l’approche oracle. Ces résultats montrent que les algorithmes de reconstruction de phase par approches consistantes (GL et LR) ne mènent pas à des résultats satisfaisants en ce qui concerne la qualité audio 1 . Ces algorithmes minimisent par construction l’inconsistance des composantes estimées, mais diminuent les SDR et SAR par rapport au filtrage de Wiener initial, diminution légère dans le cas aveugle mais nettement plus marquée dans le cas Oracle. Il est à noter que cette conclusion a déjà été suggérée dans une précédente étude Yoshii et al. (2013). Forcer l’amplitude à être constante (égale à une valeur cible) au cours des itérations semble être trop contraignant pour améliorer la qualité audio. La NMF complexe avec contrainte de consistance CNMF-LR est supposée être une réponse à ce problème, puisque les spectrogrammes des sources sont ajustés au cours des itérations afin de compenser la contrainte de consistance, mais on constate en réalité que ce modèle ne conduit pas à une amélioration par rapport à NMF-LR. Nous observons que la NMF complexe non contrainte CNMF donne de meilleurs résultats que CNMF-LR, ce qui confirme que la consistance n’est pas forcément un critère adapté à la qualité audio. Les résultats chutent globalement lorsque les sources se recouvrent dans le domaine TF, à l’exception du SAR : le rejet d’artefacts semble amélioré lorsqu’il y a recouvrement. Enfin, la séparation aveugle avec le modèle HRNMF fournit des résultats légèrement meilleurs qu’avec les autres approches (excepté dans le cas de recouvrement, où les performances de CNMF et HRNMF sont similaires). Ce modèle fournit la meilleure performance dans la comparaison oracle. NMF-Wiener reste par contre la méthode la plus rapide (40 ms), les autres étant exécutées en environ 1.5 s. Les temps de calcul sont comparables sur les données de piano. Remarque : Des tests complémentaires sur des mélanges synthétiques avec vibratos conduisent à des résultats similaires : le modèle HRNMF surpasse significativement les autres modèles dans la comparaison oracle, ce qui montre sa capacité à représenter une grande variété de signaux. À ce sujet, mentionnons qu’il peut être intéressant de travailler dans le domaine de modulation de spectrogramme afin de prendre en compte les variations d’amplitude et de fréquence des sources. Nous avons par ailleurs contribué à l’étude Stöter et al. (2016) qui proposait de comparer HRNMF et des méthodes de NMF dans le domaine de modulation de spectrogramme, montrant des résultats assez similaires.
Notes de piano
Les résultats des tests sur les notes de piano sont présentés sur la figure 3.4. Les algorithmes ne conduisent pas à des performances particulièrement plus mauvaises que sur les données synthétiques, à l’exception de CNMF, dont la performance devient moins bonne que NMFWiener, inversement au cas des signaux synthétiques. Comme précédemment, le modèle HRNMF montre un potentiel très élevé par rapport aux autres méthodes (résultats oracle).
Extrait MIDI
La figure 3.5 présente les résultats expérimentaux sur un extrait MIDI. Ces résultats montrent une baisse significative des performances des algorithmes en comparaison avec les tests précédents. La complexité de ces signaux semble induire une baisse de qualité en termes de séparation de sources. L’estimation HRNMF n’améliore pas le résultat sur l’initialisation avec KLNMF en ce qui concerne les SDR et SIR dans le cas aveugle. Cependant, l’approche oracle montre toujours le potentiel de cette méthode. NMF-Wiener est estimé en 60 ms et les autres modèles entre 3 et 4 secondes.
En résumé
Les principaux résultats de cette étude comparative sont donc : — Le modèle HRNMF possède le plus fort potentiel pour la séparation de sources, au vu des résultats de l’approche oracle. La modélisation des dépendances temporelles des composantes semble être une approche efficace pour améliorer la qualité de séparation. — Ce modèle souffre néanmoins d’une estimation coûteuse en temps de calcul, malgré les efforts faits sur le sujet, notamment grâce à l’algorithme VBEM. — Il y a une grande différence entre l’approche aveugle et oracle pour ce modèle. HRNMF semble bien fonctionner lorsque des informations sur les sources sont disponibles et onctionne moins bien en cas de séparation aveugle. Des applications en séparation supervisée peuvent donc être envisagées. — Le filtrage de Wiener fournit un estimateur des sources (et donc implicitement de la phase) efficace et rapide. Néanmoins, lorsque les sources se recouvrent en temps et en fréquence, ses performances baissent significativement. Des phénomènes comme les battements créent alors des interférences entre sources. — Les approches par consistance ne semblent pas adaptées à la séparation de sources car la consistance de la représentation ne s’avère en réalité pas être un critère corrélé à la qualité audio. Les contraintes de phase devraient donc reposer sur la consistance des données (comme le fait HRNMF) plutôt que sur la consistance de la représentation (ici la TFCT, ce que font GL et LR). — La comparaison entre les résultats de la CNMF et de la CNMF consistante confirment ce diagnostic : contraindre les sources obtenues à être la TFCT d’un signal ne semble pas améliorer les SDR, SIR et SAR. Les NMF complexes ne fournissent par ailleurs pas de meilleurs résultats que les NMF traditionnelles, probablement en raison de la nature des contraintes (ou de l’absence de contrainte) sur les phases. La non-réduction de la dimensionnalité des données de phase est par ailleurs handicapante pour ces méthodes. Ces résultats ont déjà été partiellement observés précédemment (cf. King (2012)).