Outils d’évaluation des algorithmes de séparation de sources
Évaluation objective des performances de séparation (BSS_EVAL)
Les mesures de performance sont calculées pour chaque source estimée en la comparant avec la source originale. Le calcul du critère se fait en deux étapes : la décomposition de la source estimée et le calcul des différents rapports d’énergies qui donnent les mesures de performances globales. On note le vecteur temporel relatif à une source j et de longueur T : xj = [xj (1), . . . , xj (T)]T . 8.1.1 Décomposition de la source estimée La première étape consiste à décomposer la source estimée yj comme suit : yj = s target j + e interf j + e noise j + e artif j (8.1) 107 où s target j = f(sj ) est une version de la vraie source sj modifiée par une distorsion autorisée f ∈ F, dans notre cas la distorsion consiste en un filtrage temporel invariant, et e interf j , e noise j et e artif j sont respectivement les termes d’erreur relatifs aux interférences, au bruit et aux artéfacts. Ces quatre termes doivent représenter la partie de yj perçue comme venant de la source désirée sj , des sources non désirées (sj 0) j 06=j , du bruit des capteurs (ni) 1≤i≤M et d’autres causes comme les distorsions non autorisés et/ou le bruit musical). Quand une distorsion par filtrage temporel invariant est autorisée, s target j est une version filtrée de sj telle que s target j (t) = PL−1 l=0 h(l)sj (t − l). Par conséquent, s target j appartient au sous-espace engendré par des versions décalées de sj , ce qui implique que s target j peut être définie en projetant yj sur ce sous-espace. Soit Π {x1, . . . , xk} le projecteur orthogonal sur le sous-espace engendré par les vecteurs x1, . . . , xk. Ce projecteur est une matrice T × T où T est la longueur de ces vecteurs. On note s l j et n l i le signal source sj et le signal bruit ni décalés par l échantillons, ce qui donne : s l j (t) = sj (t − l) et n l i (t) = ni(t − l). Soient les trois projecteurs suivant : Psj = Π n.
Modélisation et estimation des composantes de distorsions
Le distorsion entre la source estimée yj (t) et la source cible sj (t) est décomposée en la somme d’une composante de distorsion cible e target j (t), une composante d’interférence e interf j (t) et une composante d’artéfact e artif j (t) comme suit : yj (t) − sj (t) = e target j (t) + e interf j (t) + e artif j (t) (8.13) Pour accomplir cette décomposition, on doit spécifier comment la distorsion cible et les composantes d’interférences sont liées aux sources originales. Cependant, la manière dont le système auditif sépare les flux associés à ces composantes demeure inconnue. Une approche consiste à supposer que ces composantes sont des versions linéairement distordues des sources réelles et cette distorsion est modélisée par un filtre à réponse impulsionnelle finie (FIR) multicanal invariant dans le temps. Cette hypothèse a été prise en compte notamment dans BSS_EVAL. Cependant, ces composantes de distorsion ne correspondent pas toujours à celles perçues par l’oreille humaine. Ceci est dû en particulier au modèle invariant dans le temps qui ne correspond pas à la nature variable dans le temps des distorsions rencontrées et à la résolution fréquentielle constante des filtres RIF qui ne correspond pas à celle de 110 8. Outils d’évaluation des algorithmes de séparation de sources l’oreille. Une décomposition à temps-variable a été proposée par [88]. Cependant, à cause de son grand coût de calcul, elle est restreinte en pratique aux filtres avec une basse résolution spatiale et temporelle, et par conséquent, elle n’a pas amélioré les résultats. La décomposition proposée par Emiya et al. [30] a pour but de résoudre ces problèmes et donne des composantes de distorsion perceptuellement plus pertinentes s’approchant de la résolution temps-fréquence auditive, grâce à l’utilisation de banc de filtre. Ceci se fait en trois étapes : 1. analyse temps-fréquence : la source estimée yj (t) et les sources originales si(t), 1 ≤ i, j ≤ N sont partitionnés en temps et en fréquence par un banc de filtres type gammatone 1 en des signaux yib(t) et sib(t) indexés par b. Dans chaque sous bande, après une étape de sous-échantillonnage, ces signaux sont ensuite fenêtrés en des trames recouvrantes indexées par u : yjbu = wa(t)yjb(t − uN) et s τ ibu = wa(t)sib(t − uN − τ ), où wa est la fenêtre d’analyse, N est le pas d’avancement et sib(t−τ ) est la version décalée de la vraie source sib(t), −L/2 ≤ τ ≤ L/2 ; 2. décomposition par moindres carrés jointe : à cause de la large bande passante des filtres gammatone, les composantes de distorsion sont estimées par un filtrage additionnel en chaque sous-bande et trame temporelle ; ces composantes sont définies par un filtrage RIF multicanal invariant dans le temps des sources cibles et des sources interférentes ; les coefficients de ces filtres sont estimés par une projection des moindres carrés de la distorsion yjbu(t) − s 0 jbu (t) sur le sous-espace engendré par les versions décalées des signaux sources s τ ibu (t), 1 ≤ i ≤ N et −L/2 ≤ τ ≤ L/2 ;