Reconstruction de phase dans les approches NMF
La reconstruction de phase
Importance de la phase
La question de l’importance perceptive de la phase est sujette à débat. Dans Wang et Lim (1982), les auteurs ont mesuré l’impact du spectrogramme et de la phase sur la qualité du rehaussement de la parole, et en ont déduit que la phase jouait un rôle mineur comparé au spectre d’amplitude. Le cadre expérimental était restreint (à des paramètres de longueur et type de fenêtre, rapport signal sur bruit et mesure d’évaluation précises), ce qui limitait la portée de ces conclusions. Dans Ephraim et Malah (1984), les auteurs ont montré qu’utiliser la phase du signal de parole bruitée conduisait à l’obtention d’un estimateur optimal au sens des moindres carrés (cf. section suivante) du signal de parole non bruité. Ainsi, durant de nombreuses années, la reconstruction de phase n’a pas été considérée comme un thème majeur d’investigation. Les études plus récentes conduites dans Paliwal et Alsteris (2003, 2005); Shannon et Paliwal (2006); Alsteris et Paliwal (2006, 2007) mettent en lumière l’importance de la phase en matière d’intelligibilité des signaux de parole. Les auteurs montrent qu’un choix judicieux des paramètres de la transformée (taux de recouvrement, longueur de la fenêtre…) permet d’exploiter l’information de phase pour le débruitage de signaux de parole. Les études Paliwal et al. (2011); Gerkmann et al. (2012) montrent également l’impact de la phase sur la qualité globale de reconstruction de signaux de parole, et la nécessité de mettre au point de nouvelles méthodes pour sa reconstruction. Dans Gaich et Mowlaee (2015); Koutsogiannaki et al. (2014), il est montré qu’une métrique utilisant l’information de phase rend mieux compte des observations subjectives en matière d’intelligibilité de la parole qu’une métrique ne tenant compte que de l’information d’amplitude. La technique de randomisation de phase Sugiyama et Miyahara (2013a), qui confère à la phase un caractère aléatoire dans les points TF correspondant à certain bruits (comme des craquements), améliore la qualité du débruitage de signaux par rapport à une approche basée sur la seule amplitude. En termes de séparation de sources musicales, nous avons soulevé la question de l’importance de la phase par une nouvelle étude, qui fait l’objet du chapitre 3. Nous y montrons notamment que le choix de la méthode de reconstruction de phase dans une approche de séparation de sources basée sur la NMF peut significativement altérer les résultats. Cette conclusion fait écho à celles de précédentes études sur le sujet, comme Mowlaee et Martin (2012), où il est montré qu’un estimateur des sources utilisant une information de phase améliore la qualité de la séparation par rapport à un estimateur ne la prenant pas en compte.
Masque temps-fréquence
Dans le cas de mélanges de plusieurs sources, l’approche communément employée dans la littérature pour estimer les composantes complexes Xˆ k consiste à appliquer un masque Gk à la TFCT du mélange X : Xˆ k = Gk X, (2.1) où désigne la multiplication terme à terme. On peut considérer un masque binaire : Gk = {0, 1} F ×T . La source complexe reconstruite est alors égale au mélange dans certains points TF, et est nulle dans les autres Yilmaz et Rickard (2004). Ce masquage est efficace lorsqu’il n’y a pas de recouvrement des sources dans le domaine TF. Sur des mélanges réalistes, il produit des artéfacts auditifs, la binarité du masque créant des discontinuités dans les signaux reconstruits. En pratique, on utilise plutôt un masquage doux Gk ∈ [0, 1]F ×T . Le filtrage de Wiener Wiener (1949), fréquemment employé (voir par exemple Févotte et al. (2005)) consiste à utiliser le masque suivant, appelé gain de Wiener et calculé à partir d’estimations Vˆ 2 k des spectrogrammes de puissance des sources : Gk = Vˆ 2 P k K l=1 Vˆ 2 l . (2.2) Il s’agit d’un estimateur MMSE (optimal au sens des moindres carrés, de l’anglais Minimum Mean Square Error ). C’est par exemple montré dans Ephraim et Malah (1984) pour des processus aléatoires gaussiens. C’est pourquoi cette approche est depuis longtemps utilisée dans la littérature, et que l’on cherche à obtenir une estimation des spectrogrammes de puissance des sources. D’autres méthodes agissent sur les spectrogrammes d’amplitude, aussi certains estimateurs de sources utilisent des masques similaires à (2.2) construits à partir d’estimations des amplitudes Vˆ k plutôt que des puissances Vˆ 2 k Virtanen (2007). Un cadre théorique est fourni dans Liutkus et Badeau (2015) pour justifier l’utilisation de spectrogrammes fractionnaires pour obtenir un estimateur des Xk (filtrage de Wiener généralisé), dans le cas où les sources sont des variables aléatoires α-stables Nolan (2015). Notons que le masquage TF n’est pas une technique de reconstruction de phase, il s’agit d’une méthode d’estimation des composantes complexes à partir du mélange X qui implique que la phase de chaque source estimée est égale à celle du mélange. Cette approche présente l’avantage d’être rapide, simple à mettre en oeuvre, et de donner de bons résultats lorsque les sources se recouvrent faiblement dans le domaine TF. Lorsque le recouvrement est plus important, la propriété d’additivité des spectrogrammes n’est plus vérifiée, et la phase du mélange n’est pas égale à celles des sources. Illustrons cette limite par un exemple simple. Considérons un mélange composé de deux signaux synthétiques qui sont des sommes de sinusoïdes amorties. Les sources sont observées successivement seules, puis activées simultanément. Leurs fréquences sont choisies de sorte à observer un phénomène de battements dans certains canaux lorsque les deux sources sont activées simultanément. Le signal est échantillonné à 11025 Hz et la TFCT du mélange est calculée avec une fenêtre de Hann de longueur 512 échantillons (soit 46 ms) et 75 % de recouvrement. On suppose connus les spectrogrammes de puissance des deux sources et on applique le filtrage de Wiener afin de reconstruire les composantes complexes. La figure 2.1 illustre alors l’effet du filtrage de Wiener dans la bande de fréquences correspondant à 730 Hz. Cette figure montre l’incapacité du filtrage de Wiener à estimer convenablement une composante complexe à partir du mélange en cas de recouvrement. Dans ce cas, le phénomène de battements persiste dans les sources séparées.Le phénomène de recouvrement TF étant très fréquemment observé dans les mélanges de signaux musicaux (sources en relations harmoniques), il apparait nécessaire de trouver de nouvelles méthodes de reconstruction de phase pour l’estimation des composantes complexes dans le plan TF afin de synthétiser des signaux temporels de plus haute qualité. En outre, l’application du filtrage de Wiener dans ces points TF où les sources se recouvrent modifie les amplitudes de celles-ci, même si elles sont initialement supposées connues. Notons enfin que le filtrage de Wiener peut également conduire à produire certains artéfacts dans les basses fréquences (notamment lorsque les signaux sont une basse et une batterie). Des méthodes de lissage de filtres de Wiener Vincent (2010) peuvent alors être envisagées pour réduire ces artéfacts, mais cela ne supprime néanmoins pas les interférences entre sources.
Approches consistantes
La consistance, que nous définissons ci-après, désigne une propriété de la TFCT, indépendamment de la nature des signaux considérés. C’est en ce sens que nous l’entendrons dans le reste de ce manuscrit. Il existe des méthodes de reconstruction de phase qui sont basées sur la minimisation d’une fonction de coût qui pénalise l’inconsistance (ou, de façon équivalente, favorise la consistance). Notion de consistance Le concept de consistance Le Roux et al. (2008c) est basé sur le fait que la TFCT n’est pas une transformation surjective de R N dans C F ×T . En effet, toute matrice complexe n’est pas forcément la TFCT d’un signal réel. L’opérateur F = T F CT ◦ T F CT −1 n’est pas la fonction identité dans C F ×T . On dit alors d’une matrice complexe qu’elle est consistante si elle est exactement la TFCT d’un signal 1 . Formellement, on définit alors l’espace des matrices consistantes comme étant l’ensemble image de l’opérateur de TFCT. L’application F est un projecteur sur le sous-espace des matrices consistantes. La fonction d’inconsistance mesure l’écart entre une matrice complexe X et la TFCT de sa TFCT inverse. On définit la matrice d’inconsistance IX ∈ C F ×T : IX = X − F(X),