Modèle de phase d’attaque basé sur la
répétition d’évènements audio
Comme on l’a indiqué dans l’introduction de ce manuscrit, la majorité des techniques de séparation de sources reposent sur le caractère répétitif des évènements qui constituent les données. En audio, on peut voir une source comme étant constituée de la répétition d’un évènement élémentaire (comme une note). La NMF repose sur le postulat de l’existence d’un spectre associé à chaque évènement audio, qui est activé à différents instants avec un gain variable. Néanmoins, les répétitions de phase ne sont guère exploitées. Or, comme c’est l’évènement audio (un signal temporel) qui est redondant, on peut intuitivement penser qu’il existe une forme de redondance qui se retrouve dans sa TFCT, aussi bien au niveau du spectrogramme d’amplitude que de la phase. Nous proposons donc d’exploiter ces redondances au niveau des attaques des sources musicales pour reconstruire les phases dans les trames d’attaque dans le domaine TF. On postule l’existence d’une phase de référence et on suppose que pour une source donnée, la phase au niveau des trames d’attaque est égale à cette phase de référence, à laquelle est ajouté un décalage qui est une fonction linéaire de la fréquence. Ce modèle est testé sur divers signaux afin d’en attester la validité. Nous proposons également de le combiner à l’algorithme de déroulé linéaire afin de restaurer complètement la phase d’un signal, dans un cadre supervisé (les phases de référence sont préalablement apprises à partir d’une base de données externe). Nous proposons ensuite d’intégrer cette propriété dans un modèle de mélange de sources complexes au niveau des attaques. Ce modèle de mélange est estimé par deux algorithmes, la contrainte de phase pouvant être stricte ou relaxée. Une fois la restauration des phases complétée par l’application de l’algorithme de déroulé linéaire, nous obtenons alors une procédure complète de reconstruction de phase dans le cadre de la séparation de sources. Les contributions de ce chapitre ont fait l’objet d’une publication à la conférence WASPAA 2015 Magron et al. (2015a). La section 6.1 présente ce modèle de phase, qui est expérimentalement validé dans la section 6.2. Cette propriété est intégrée à un modèle de mélange dans la section 6.3, dont l’estimation des paramètres est décrite dans la section 6.4. Des expériences de séparation de sources sont conduites dans la section 6.5, et nous concluons dans la section 6.6.
Validation expérimentale préliminaire
On cherche dans cette partie à mettre en évidence la phase de référence introduite précédemment. On suppose connues les trames d’attaque tm, m ∈ J0, 1K, bien que l’on pourrait par la suite les estimer (à partir par exemple de la MATLAB Tempogram Toolbox Grosche et Müller (2011)).
Précision du modèle de phase
On considère dans cette expérience des signaux constitués d’une source (un évènement audio) qui est activée à deux reprises. Ces signaux sont : — des notes de piano tirées aléatoirement de la base MAPS Emiya et al. (2010), — des notes de guitare électrique tirées aléatoirement de la base IDMT-SMT-GUITAR Kehling et al. (2014). Ces sources peuvent être activées soit à l’identique, c’est-à-dire sans variation de forme d’onde, soit avec une certaine nuance (afin de reproduire de façon plus réaliste les variations de jeu de l’instrumentiste). Dans le cas des notes de piano, les nuances possibles sont « mezzoforte », »forte » et « piano ». Pour les notes de guitare, les nuances sont obtenues en considérant des notes qui sont jouées à différents endroits du manche (en effet, avec la guitare, on peut produire une même note de plusieurs façons différentes, selon la case et la corde choisie). On calcule la différence de phase ∆φ(f) = φ(f, t1)−φ(f, t0) entre les trames d’attaque. On s’attend à ce que cet écart de phase soit linéaire en f pour qu’il respecte le modèle (6.6). On calcule donc une approximation de ce décalage entre phases d’attaque par régression linéaire, et on illustre cette expérience sur la figure 6.2 dans le cas où il n’y a pas de variation de forme d’onde entre les deux occurrences de notes. Afin de mesurer la pertinence de ce modèle, nous calculons (sur 25 signaux dans chaque cas de figure) l’erreur moyennée sur les fréquences (en radians) entre décalages de phases d’attaque observés et estimés par le modèle, et nous présentons les résulats dans le tableau 6.1. La première ligne de ce tableau confirme ce que l’on constate visuellement sur la figure 6.2 : lorsqu’une source est activée « à l’identique », c’est-à-dire sans variation de forme d’onde, le modèle est relativement précis. Lorsque les notes sont activées avec une certaine nuance variable, il reste possible d’exploiter une phase de référence pour caractériser la phase dans les trames d’attaque, même si ce modèle perd nettement en précision par rapport au cas de sources identiques.
Combinaison avec le déroulé linéaire
Nous combinons à présent le modèle de phase (6.6) et le déroulé linéaire introduit au chapitre 4 pour achever la reconstruction des phases à partir de celle des attaques. Phase apprise à partir d’une première occurrence de la note Nous considérons des mélanges constitués de deux occurrences d’une note (piano ou guitare) avec ou sans nuance. Nous reconstruisons la phase au niveau de la deuxième activation à partir de la première. Après avoir reconstruit la phase dans la deuxième trame d’attaque, nous achevons la reconstruction de phase de la deuxième occurrence de note par déroulé linéaire. Nous effectuons également une reconstruction par l’algorithme de Griffin et Lim (GL) qui utilise 200 itérations, et on mesure la qualité de la reconstruction par le SDR Vincent et al. (2006). Les résultats sont présentés dans le tableau 6.2. Globalement, notre modèle de phase améliore la qualité de reconstruction du signal par rapport à l’algorithme GL. Cela montre l’importance de cette phase d’attaque, qui est non seulement indispensable pour conduire à un résultat perceptif satisfaisant (attaque nette) mais également pour initialiser un déroulé pertinent des phases des partiels. Base de phases de référence En pratique, comme toutes les phases sont inconnues, nous n’avons pas à disposition la phase de référence. Une possibilité est alors d’utiliser une base de données de phases d’attaque.