De nombreuses techniques en traitement du signal sonore ont pour objectif de permettre à une machine (un système informatique tel qu’un ordinateur, un téléphone, un robot, etc.) d’effectuer des tâches que l’humain fait plus ou moins naturellement, voire de le surpasser dans l’exécution de celles-ci. C’est pourquoi il est intéressant dans un premier temps de définir les différentes intéractions que nous avons quotidiennement avec le son et qui ont pu motiver la recherche en traitement du signal sonore. Prenons comme point de départ les quatre modes de l’écoute introduits par Pierre Schaeffer dans son Traité des objects musicaux [Schaeffer, 1966] et résumés comme suit par Michel Chion dans le Guide des objets sonores [Chion, 1983, p. 25] : «Ouïr, c’est percevoir par l’oreille, c’est être frappé de sons, c’est le niveau le plus brut, le plus élémentaire de la perception ; on «oit» ainsi, passivement, beaucoup de choses qu’on ne cherche ni à écouter ni à comprendre. Écouter, c’est prêter l’oreille à quelqu’un, à quelque chose ; c’est, par l’intermédiaire du son, viser la source, l’événement, la cause, c’est traiter le son comme indice de cette source, de cet événement. Entendre, c’est, d’après l’étymologie, manifester une intention d’écoute, c’est sélectionner dans ce qu’on oit ce qui nous intéresse plus particulièrement, pour opérer une «qualification» de ce qu’on entend. Comprendre, c’est saisir un sens, des valeurs, en traitant le son comme un signe renvoyant à ce sens, en fonction d’un langage, d’un code.» .
Ces quatre modes d’écoute sont le plus souvent mis en jeu simultanément dans la perception du son. On voit néanmoins qu’il est nécessaire d’avoir ouï pour impliquer les autres modes. On remarque d’ailleurs que c’est ce verbe qui est en premier lieu utilisé dans l’épigraphe de cette thèse, illustrant les quatre modes d’écoute.
Prenons l’exemple d’une situation que l’on rencontre souvent pour introduire le problème de séparation de sources, celle d’une discussion dans un environnement bruyant tel qu’une réception ou un cocktail. Un auditeur oit passivement l’ensemble sonore qui l’entoure. Un locuteur lui parle, il décide alors de l’écouter. Pour l’entendre, il est naturellement capable de focaliser son attention sur sa voix, dans le but final de comprendre le message qui lui est communiqué. Il met ainsi en œuvre naturellement un procédé de séparation de sources, car il arrive en quelque sorte à isoler la voix du locuteur du reste de l’environnement sonore. Il est cependant important de nuancer par le fait que cette séparation n’est pas totale. L’auditeur perçoit toujours les autres sons qui l’entourent, c’est pourquoi il pourra se détourner de cette conversation si par exemple quelqu’un prononce son nom.
Remplaçons dans la situation précédente l’auditeur par une machine ayant été programmée dans un but précis que nous allons préciser. Ce sont un ou plusieurs microphones qui permettent à la machine d’ouïr, de capter le signal de l’environnement sonore dans le but de le traiter. Cette machine dispose d’une méthode de détection de l’évènement sonore associé à la prise de parole du locuteur, qui lui permet ainsi de l’écouter. Les téléphones utilisent par exemple un mot clé pour déclencher cette action. La machine emploie ensuite une méthode de séparation de sources afin d’isoler le flux de parole du locuteur des autres sons ambiants, qui dans ce cas précis constituent un bruit. Enfin, des techniques de reconnaissance automatique de la parole permettent à la machine de «comprendre» le message encodé et d’effectuer l’action qui lui est demandée (recherche sur internet, envoi d’un message, appel vocal, etc.).
De façon plus générale, la séparation de sources est une technique de traitement du signal qui vise à retrouver l’ensemble des signaux sources composant un mélange enregistré avec un ou plusieurs capteurs. On parlera plutôt de débruitage quand il s’agit d’isoler un signal d’intérêt noyé dans du bruit, ou de réhaussement lorsqu’on souhaite simplement augmenter la contribution du signal d’intérêt par rapport au bruit dans le mélange. On comprend par cette définition que la séparation de sources vise à aller au delà de ce que nous sommes naturellement capables de faire ; bien que l’on puisse focaliser notre attention sur un son, nous ne pouvons l’isoler parfaitement du reste de l’environnement sonore.
La séparation de sources peut être utilisée comme pré-traitement pour des tâches de classification ou de reconnaissance automatique. Dans l’exemple précédent, la séparation de la voix n’est pas l’objectif final, elle est utilisée dans le but d’aider à la reconnaissance automatique de la parole. Dans cette thèse nous nous intéressons plus particulièrement au traitement des signaux musicaux. Dans ce contexte, la séparation de sources peut être utile pour l’extraction automatique d’information dans la musique. Dans un travail antérieur à cette thèse, nous utilisions par exemple une technique de séparation en composantes harmoniques, percussives et vocales dans le but de détecter la voix chantée dans un morceau de musique [Leglaive et al., 2015c]. Cette approche consistait à extraire des descripteurs audio à court-terme à partir des signaux séparés, et à les fournir en entrée d’un réseau de neurones récurrent effectuant la classification suivant la présence ou l’absence de voix chantée. Des techniques de séparation de sources ont également été utilisées dans d’autres applications comme la reconnaissance automatique d’instruments [Heittola et al., 2009] et l’estimation de mélodie [Durrieu et al., 2011; Tachibana et al., 2010; Rigaud et Radenen, 2016].
Des méthodes de séparation de sources peuvent par exemple être utilisées pour réduire les interférences dans les signaux captés par des microphones de proximité pour l’enregistrement d’un morceau de musique [Carabias-Orti et al., 2013; Prätzlich et al., 2015]. Ces interférences limitent en effet les possibilités de mixage des ingénieurs du son.
Un autre objectif important de la séparation de sources musicales est de permettre le remixage des morceaux de musique. Au cours de cette thèse nous avons été impliqués dans le projet ANR EDiSon3D (Edition et diffusion sonore spatialisée en 3 dimensions). Ce projet s’inscrit dans le cadre de l’émergence du son dit 3D, ayant comme objectif l’amélioration du rendu de l’espace sonore pour la musique et l’audiovisuel. Les productions (documentaires, fictions, musique, etc.) en binaural ou au format 5.1 du récent label «nouvOson» de Radio France illustrent par exemple ce nouveau courant. Le concept de son 3D est étroitement lié au développement d’un «format objet» pour décrire une scène sonore, indépendamment du système de reproduction. A l’inverse des formats multicanaux actuels (stéréophonique, 5.1, etc.) où le mixage est figé, le format objet permet à chaque source audio d’être accompagnée de «méta-données» encodant par exemple l’information de spatialisation. Ce n’est qu’au moment de la diffusion que les sources sont positionnées dans l’espace, selon la configuration du dispositif de restitution. Dans ce contexte, la séparation de sources est nécessaire pour adapter un contenu audio existant dans un format multicanal standard vers ce nouveau paradigme objet, à des fins de remixage.
I Introduction et état de l’art |