Le traitement des signaux audio a connu ces dernières décennies un essor considérable, et trouve aujourd’hui des applications dans de très nombreux domaines. En effet, du rehaussement de la parole dans les télécommunications à des appareils médicaux tels que les prothèses auditives, les applications de ce champ de recherche sont extrêmement variées. Une branche de ce domaine est consacrée à la manipulation des signaux musicaux. Systèmes de recommandation comme Spotify , reconnaissance de morceaux de musique comme la célèbre application Shazam , logiciels qui éditent une partition à partir d’un enregistrement de musique : tous ces outils ont en commun de travailler sur ce même matériau brut. Les applications de la recherche en traitement du signal musical sont donc à destination du grand public, mais aussi des musiciens et des mélomanes, ainsi qu’à des industriels du cinéma, de la télévision et de la musique. Un thème principal de ces recherches consiste en l’extraction automatique d’informations de nature musicale (on parle alors de MIR pour Music Information Retrieval). Il peut s’agir d’informations comme le rythme, la tonalité, les instruments et les accords présents dans un morceau, ou encore le genre musical. De telles données peuvent ensuite être utilisées pour mettre au point des systèmes de recommandation, des transcripteurs automatiques de musique ou bien des outils de détection de reprise ou de plagiat. Une autre application du traitement du signal musical est la séparation de sources, qui vise à reproduire automatiquement la faculté de l’oreille humaine à se focaliser uniquement sur un instrument et à dissocier les différents flux musicaux présents dans un morceau. Un système de séparation de sources prend un morceau de musique en entrée, et fournit en sortie un ensemble de pistes assignées chacune à un instrument. En quelque sorte, il s’agit de l’opération inverse du mixage qui est effectué lors de l’enregistrement du morceau. Une telle séparation a de nombreuses applications en musique : débruitage des signaux, mixage augmenté et respatialisation (typiquement sur de vieux enregistrements), ou encore génération automatique d’accompagnement (karaoké). Ces deux thèmes de recherche sont étroitement liés : la séparation de sources aide à la transcription automatique ou à la reconnaissance d’instruments (il est toujours plus simple d’opérer sur des sources isolées plutôt que sur des mélanges), et les informations de nature musicale comme le rythme ou le contenu mélodique aident à l’identification et à la séparation des pistes instrumentales. On parle alors de séparation de sources informée lorsque des informations additionnelles sur le contenu musical sont prises en compte, à l’inverse de la séparation aveugle.
De nombreuses méthodes de traitement du signal agissent dans le domaine Temps-Fréquence (TF), c’est-à-dire sur une représentation des signaux musicaux qui rend compte aussi bien du contenu fréquentiel du signal que de son évolution temporelle. Intuitivement, on peut voir une partition de musique comme une représentation TF : les notes sont organisées en fonction de leur hauteur selon un axe vertical (information fréquentielle) et en fonction de leur ordre d’apparition selon un axe horizontal (information temporelle). De telles représentations de signaux musicaux sont généralement parcimonieuses, c’est-à-dire qu’un grand nombre de leurs coefficients ont une valeur faible ou nulle, et que l’énergie est concentrée dans un nombre réduit de points TF. Cette propriété de parcimonie est fréquemment exploitée en traitement du signal musical Abdallah et Plumbley (2006).
Néanmoins, des applications comme le débruitage Mowlaee et al. (2012), la séparation de sources Wang et Plumbley (2005), ou encore la modification de hauteur Laroche et Dolson (1999), visent à resynthétiser des signaux dans le domaine temporel. On effectue donc un certain nombre d’opérations sur une TFCT X afin d’en construire une nouvelle Y (ou plusieurs, dans le cas de la séparation de sources), puis on applique la TFCT inverse à Y pour synthétiser un signal temporel. Cette matrice Y doit donc comporter une information d’amplitude et une information de phase. Lorsque l’on n’effectue des traitements que sur une quantité positive extraite de X, l’information de phase est généralement perdue et il devient nécessaire de reconstruire celle de Y .
En traitement du signal audio, une attention particulière est donc portée à la phase de la TFCT dans des applications telles que l’étirement temporel Laroche et Dolson (1999), le rehaussement Mowlaee et al. (2016) ou encore la synthèse Stylianou (2001) de la parole. Le problème de la reconstruction de phase de TFCT dépasse par ailleurs le cadre de l’audio : c’est en effet une tâche qui concerne de nombreux domaines de la physique appliquée Jaganathan et al. (2015); Eldar et al. (2016) tels que l’optique Gerchberg et Saxton (1972), la cristallographie ou encore l’imagerie médicale.
1 Introduction |