Principe général de la séparation aveugle de sources
Le probl`eme de la s´eparation aveugle de sources (SAS ou BSS selon son appellation en anglais Blind Source Separation) a ´et´e abord´e au d´ebut des ann´ees 1980 par Christian Jutten, Jeanny H´erault et Bernard Ans dans le cadre de la mod´elisation neuronale (H´erault et al, 1985). Plus tard, le probl`eme de SAS a re¸cu une attention consid´erable de la part de la communaut´e scientifique dans plusieurs domaines tels que le traitement de signal, les statistiques, les r´eseaux de neurones, etc. Au sens large, le probl`eme de SAS consiste `a r´ecup´erer un ensemble de signaux sources inconnus `a partir d’un ensemble de signaux observ´es qui r´esultent d’un m´elange inconnu de ces signaux sources (Mansour et al, 2000; Comon and Jutten, 2010; Deville, 2016). Le terme aveugle se r´ef`ere au fait que ni les signaux sources, ni le m´elange sont connus. Les applications des ´ethodes de SAS sont diverses, parmi lesquelles nous citons l’astrophysique (Bern´e, O. et al, 2007; Nuzillard, D. and Bijaoui, A., 2000), le biom´edical (Kardec Barros et al, 1998; Deville, 2003; Kachenoura et al, 2007), la t´el´ed´etection (Bayliss et al, 1997; Wang and Chang, 2006; Pauca et al, 2006; Sajda et al, 2003; Nascimento and Bioucas-Dias, 2005a) et la d´etection des composants chimiques (Bedoya, 2006; Duarte et al, 2014; Ando et al, 2015). Un aper¸cu d´etaill´e des diff´erentes applications des m´ethodes de SAS est pr´esent´e dans (Mansour et al, 2000; Mansour and Kawamoto, 2003; Hyv¨arinen et al, 2001; Cichocki and Amari, 2003; Jutten and Comon, 2007).
Afin d’illustrer le principe de la SAS, prenons l’exemple classique du probl`eme de la soir´ee cocktail (ou Cocktail Party Problem en anglais), o`u il y a un certain nombre de personnes qui sont en train de discuter dans une pi`ece. Dans ce cas, un ˆetre humain avec une audition en bonne sant´e peut faire la distinction entre les diff´erentes voix parvenant ´elang´ees `a ses oreilles, et ainsi, il peut identifier une voix particuli`ere et la comprendre. Il en est de mˆeme pour la SAS, dont le rˆole est d’offrir une solution en s´eparant les signaux sources, correspondant aux signaux vocaux des invit´es, `a partir des ´elanges enregistr´es par des microphones plac´es dans diff´erents endroits. Le principe de cet exemple de s´eparation est illustr´e en Figure 1.1.
La configuration g´en´erale du probl`eme de SAS est illustr´ee dans la Figure 1.2.
Les m´ethodes de s´eparation de sources peuvent ˆetre classifi´ees principalement selon trois crit`eres : le type de m´elange, le nombre de signaux observ´es par rapport au nombre de signaux sources, et les propri´et´es des sources consid´er´ees. Pour le premier crit`ere, nous trouvons dans la litt´erature plusieurs types de m´elange. Un premier type, concerne le m´elange lin´eaire, c’est-`a-dire le cas o`u les observations sont des m´elanges lin´eaires des signaux sources. Les m´ethodes de SAS traitant ce type de m´elange sont les plus ´etudi´ees en raison de la simplicit´e du mod`ele lin´eaire. N´eanmoins, dans plusieurs applications, le mod`ele lin´eaire ne suffit pas pour d´ecrire certains p ´enom`enes physiques intervenant dans le m´elange. Pour r´esoudre ce probl`eme, il est n´ecessaire d’utiliser un mod`ele non-lin´eaire. La sp´ecificit´e du mod`ele non-lin´eaire est sa capacit´e d’offrir une meilleure description de la r´ealit´e physique. L’extension des m´ethodes de SAS aux m´elanges non-lin´eaires reste toujours moins ´etudi´ee en raison de leur complexit´e. Pour simplifier leur utilisation, des mod`eles non-lin´eaires moins complexes ont ´et´e propos´es dans la litt´erature. Nous citons, par exemple, le mod`ele post-non-lin´eaire o`u le m´elange est form´e d’une partie lin´eaire suivie d’une distorsion non-lin´eaire due aux capteurs. Un autre mod`ele est le mod`ele lin´eaire-quadratique qui contient `a la fois des termes lin´eaires et des termes crois´es r´esultant des interactions qui peuvent se produire entre les diff´erentes sources. Nous nous int´eressons dans cette th`ese `a ce dernier mod`ele qui sera trait´e en d´etail par la suite. Une deuxi`eme classification possible des m´ethodes de SAS est selon le rapport entre le nombre de signaux observ´es et le nombre de sources. Lorsque le nombre de signaux observ´es est sup´erieur au nombre de sources, nous parlons d’un m´elange sur-determin´e, et quand le nombre de signaux observ´es est inf´erieur au nombre de sources, le m´elange devient sous-d´etermin´e. Enfin, le m´elange est consid´er´e d´etermin´e lorsque les nombres de sources et de signaux observ´es sont ´egaux.
Le troisi`eme crit`ere de classification concerne les propri´et´es v´erifi´ees par les sources.
En effet, la SAS n’est th´eoriquement possible que si certaines hypoth`eses sont v´erifi´ees par les signaux sources. Dans la litt´erature, plusieurs propri´et´es ont ´et´e utilis´ees : signaux `a valeurs r´eelles ou complexes, stationnaires, cyclo-stationnaires ou nonstationnaires, mutuellement ind´ependants ou non, ind´ependants et identiquement distribu´es (i.i.d.) ou non-i.i.d., positifs ou non, parcimonieux ou non, etc. La plupart des m´ethodes de s´eparation de sources ont ´et´e propos´ees pour les signaux sources i.i.d. et mutuellement ind´ependants.
Mélanges linéaires
Dans la litt´erature, les m´elanges lin´eaires ont largement ´et´e ´etudi´es en s´eparation de sources. Ce type de m´elange sera pr´esent´e dans cette partie d’une fa¸con succincte. Tout d’abord, nous pr´esentons les diff´erents types de m´elanges lin´eaires ainsi que leurs formulations math´ematiques. Ensuite, nous exposons un panorama des m´ethodes de s´eparation de sources propos´ees pour ce type de m´elange.
Les m´elanges lin´eaires peuvent ˆetre repartis en trois sous-categories present´ees dans les sous-sections qui suivent.
Mélanges convolutifs
Le mod`ele de m´elange convolutif est une g´en´eralisation du mod`ele pr´ec´edent. Dans ce cas-l`a, les m´elanges observ´es r´esultent des versions d´ecal´ees des sources originales. Par cons´equent, en consid´erant tous les d´ecalages possibles de la source sj contribuant `a l’´echantillon d’indice n de l’observation xi , l’´equation du m´elange peut s’´ecrire sous la forme suivante.
Méthodes de séparation linéaires instantanés
Comme nous l’avons mentionn´e au d´ebut du chapitre, les m´ethodes de SAS visent `a estimer un ensemble de signaux sources inconnus `a partir des observations connues. Pour r´epondre `a cet objectif, diff´erentes m´ethodes ont ´et´e propos´ees. Ces m´ethodes se regroupent principalement en quatre classes dont nous donnerons un aper¸cu g´en´eral ci-apr`es : les m´ethodes bas´ees sur l’Analyse en Composantes Ind´ependantes (ACI), les m´ethodes bas´ees sur l’Analyse en Composantes Parcimonieuses (ACPa), les m´ethodes bas´ees sur la Factorisation en Matrices Non-n´egatives (FMN), et enfin, les m´ethodes bas´ees sur l’approche bay´esienne.
Analyse en Composantes Indépendantes
Les m´ethodes bas´ees sur l’Analyse en Composantes Ind´ependantes (ACI) sont les m´ethodes de s´eparation de sources les plus ´etudi´ees. Le point cl´e de ces m´ethodes consiste `a appliquer des transformations aux observations de fa¸con `a obtenir en sortie des signaux statistiquement ind´ependants les uns des autres, et qui sont ´egaux aux signaux sources `a certaines ind´eterminations pr`es (permutations, facteur d’´echelle).
Maximisation de la non-gaussianité
L’un des crit`eres les plus utilis´es en ACI est la maximisation de la non-gaussianit´e. En effet, une condition n´ecessaire pour s´eparer les signaux sources i.i.d. est la nongaussianit´e de ceux-ci. Cette condition est bas´ee sur le th´eor`eme de la limite centrale qui affirme que la somme des variables ind´ependantes tend vers une distribution gaussienne. Ainsi, on peut d´eduire que dans un probl`eme de SAS, nous pouvons retrouver les composantes ind´ependantes en augmentant la non-gaussianit´e des sources estim´ees. Une mesure classique de la non-gaussianit´e est l’autocumulant d’ordre 4 normalis´e, appel´e encore le kurtosis normalis´e, dont l’expression est d´efinie comme suit (Mansour and Jutten, 1999).
Méthodes tensorielles basées sur les statistiques d’ordre supérieur
Des m´ethodes bas´ees sur les statistiques d’ordre sup´erieur, telles que les cumulants d’ordre sup´erieur `a deux, ont ´et´e propos´ees pour s´eparer les signaux i.i.d. et nongaussiens avec au plus un seul signal ayant une distribution gaussienne. L’id´ee est de s´eparer ces signaux en utilisant une fonction bas´ee sur les cumulants d’ordre sup´erieur.
En effet, les cumulants crois´es entre les signaux sont nuls `a tous les ordres lorsque ces signaux sont ind´ependants. D’une mani`ere g´en´erale, il est difficile de d´eterminer les cumulants crois´es `a tous les ordres, c’est pourquoi les m´ethodes de SAS se limitent g´e ´eralement `a l’ordre quatre. L’utilisation des m´ethodes bas´ees sur les cumulants s’effectue par une approche tensorielle qui emploie les tenseurs de cumulants d’ordre sup´erieur. Par d´efinition, les tenseurs constituent une extension `a N dimensions du concept de matrice. Par cons´equent, le tenseur de cumulants ´etend le concept de matrice de covariance aux ordres sup´erieurs. La sp´ecificit´e des tenseurs de cumulants est qu’ils sont diagonaux `a tous les ordres lorsque les signaux sont ind´ependants. Le tenseur de cumulants T d’ordre quatre correspond `a un op´erateur lin´eaire d´efini par les cumulants crois´es tel que la transformation Ti,j (M) de la matrice M est comme suit.