Amélioration du signal de la parole par les filtres de
Kalman
La transformée non parfumée
La transformée non parfumée (UT) ([Julier 1996] ; [Juler 2000]) est une méthode numérique relativement récente qui peut être utilisée pour approximer la distribution conjointe des variables aléatoires x et y définies comme : x ∼ N(m, P) y = g(x). Cependant, la philosophie d’UT diffère de la linéarisation, dans ce sens elle tente d’approcher directement la moyenne et la covariance de la distribution cible au lieu d’essayer d’approximer la fonction non-linéaire [Julier 1996]. L’idée d’UT est de choisir de façon déterministe un nombre fixe des points sigma qui capturent exactement la moyenne et la covariance de la distribution originale x. Ces points sigma sont ensuite propagés à travers la non-linéarité donc la moyenne et la covariance de la variable transformée sont estimées à partir de celles-ci [Julier 2004]. La transformée non-parfumée forme une approximation gaussienne 2 par la procédure suivante : 2. Notez que la transformé non parfumée peut également être appliquée sans l’hypothèse de gaussienne. Cependant, comme cette hypothèse rend l’interprétation bayésienne de l’UT beaucoup plus facile, nous l’utiliserons ici. 38 Chapitre 3. Les filtres de Kalman 1. Former un ensemble 2n + 1 de points sigma comme suit : X (0) = m X (i) = m + √ n + λ h√ P i i X (i+n) = m − √ n + λ h√ P i i , i = 1, . . . , n, (3.77) où []i désigne la ième colonne de la matrice, et λ est un paramètre d’échelle qui est défini par les paramètres d’algorithme α et κ comme suit : λ = α 2 (n + κ) − n. (3.78) Les paramètres α et κ déterminent la propagation des points sigma autour de la moyenne [Haykin 2001]. La racine carrée de la matrice désigne une matrice telle que √ P √ P T = P. Les points sigma sont les colonnes de la matrice. 2. Propager les points sigma à travers la fonction non-linéaire g(·) : Y (i) = g .
Amélioration du signal de parole par le filtre de Kalman en utilisant la technique d’amélioration des formants
Le filtre de Kalman est un estimateur non biaisé de l’erreur quadratique moyenne minimal (MMSE) linéaire dans le domaine temporel et qui provient de la théorie des systèmes de contrôle [6]. Son rôle est d’estimer les états inconnus d’un système dynamique, en utilisant une combinaison linéaire d’un bruit corrompu par des observations et des états prédits. Le filtre de Kalman présente un intérêt particulier pour l’amélioration de la parole en raison de plusieurs avantages par rapport aux méthodes d’amélioration du domaine spectral : — Le modèle de la production de la parole se situe dans les équations de filtre Kalman en utilisant un prédicteur linéaire comme un modèle dynamique ; Chapitre 4. Amélioration du signal de parole par le filtre de Kalman en utilisant la technique d’amélioration des formants — Lorsque des LPCs précis sont disponibles, le signal de parole amélioré par le filtre de Kalman ne contient aucun bruit de musique ; — Le filtre de Kalman ne fait aucune hypothèse stationnaire comme le filtre de Wiener ; — Le filtre de Kalman peut être activé au premier échantillon n = 0, où les paramètres de récursivité sont initialisés avec leurs valeurs espérées ; — Le filtre de Kalman est considéré comme un estimateur commun de l’amplitude et le spectre de phase à la fois [7]. Le type de filtre-source le plus utilisé est le modèle de prédiction linéaire (LP). Qui est utilisé pour le codage [8], la reconnaissance [9] et l’amélioration [10] de la parole. Les LPCs sont trouvés par l’estimation du modèle LPC, qui décrit la fonction de transfert inverse du conduit vocal humain. La performance d’amélioration du filtre de Kalman est un dépendant de la précision des LPCs et de la variance d’excitation. Idéalement, ces coefficients doivent être obtenus à partir d’un signal de parole propre, comme cela a été fait par [5]. Cependant, dans la pratique, les LPCs et la variance ne sont pas connues a priori ; elles doivent donc être estimées à partir d’un signal bruité. En fonction des caractéristiques de bruit et du rapport signal sur bruit (SNR), les LPCs et la variance d’excitation d’un signal de parole bruité sont médiocres. Pour cette raison, la plupart des méthodes proposées se concentrent sur les méthodes d’estimation des LPCs et de la variance d’excitation. Ainsi, dans [11], les auteurs développent une méthode alternative d’amélioration de la parole itérative sous-optimale en utilisant l’algorithme Expectation-Maximization (EM). Dans [12], l’auteur propose une méthode d’estimation des LPCs en utilisant l’algorithme LS récursif robuste. En outre, les LPCs sont estimés en utilisant la sortie améliorée du filtre de Kalman de l’itération précédente [13,14]. Cependant, ces derniers permettent d’obtenir des SNR inférieurs. Dans cette thèse, nous proposons une nouvelle technique présentant la méthode d’amélioration des formants basée sur LPC (LPCFEM) pour améliorer la structure du spectre de la parole bruitée dans le filtre de Kalman itératif. La méthode proposée repose sur la modification du spectre d’amplitude logarithmique du modèle LPC, puis sur la réévaluation de nouveaux LPCs pour réduire la présence du bruit de fond dans le filtre de Kalman itératif. Les améliorations apportées par cette méthode sont vérifiées dans le cadre d’expériences d’amélioration de la parole objectives et subjectives en utilisant le corpus NOIZEUS. Nous montrons que la méthode d’amélioration proposée (Kalman LPC-FEM) donne de meilleures performances que les techniques de filtrage de Kalman itératifs conventionnels [13,14]. 50 Chapitre 4. Amélioration du signal de parole par le filtre de Kalman en utilisant la technique d’amélioration des formants Dans ce chapitre, nous présentons notre méthode (où notre contribution) qui concerne la réévaluation des LPCs en utilisant la méthode d’amélioration des formants (FEM). L’objectif est d’implémenter ces nouveaux LPCs dans le filtre de Kalman itératif pour améliorer le signal de parole bruité. Les avantages de cette méthode par rapport aux autres sont les suivants : 1. Résoudre le problème des mauvaises estimations des LPCs en raison du bruit additif. 2. Le signal de parole amélioré par notre méthode ne contient pas des bruits résiduels (musiques) parce que les performances d’optimisation du filtre de Kalman sont étroitement liées à la précision des LPCs. L’algorithme de la méthode d’amélioration des formants basée sur LPC dans le filtre de Kalman (Kalman LPC-FEM) est implémenté à travers les étapes suivantes : 4.1 Prétraitement de la parole Il est effectué par le filtre suivant Hp(z) = 1 − βz−1 (4.1) Avec β choisi empiriquement, le rôle du filtre de prétraitement est la suppression de l’inclinaison spectrale dans le spectre de la parole et met l’accent sur les plus élevés formants de fréquence pour voir une analyse LPC plus précise. 4.2 L’analyse LPC Les trames de parole de 20 ms sont extraites par la fenêtre de Hanning [Blackman 1958]. Nous avons arbitrairement choisi cette fenêtre qui est définie par ωn = 0.5 − 0.5 cos 2πn N , 0 ≤ n ≤ N − 1 0 autrement (4.2) Le modèle de filtre source dans lequel le filtre est contraint à être un filtre linéaire tout-pôles. Les quantités pour effectuer une prédiction linéaire de l’échantillon suivant en tant que somme pondérée des échantillons passés sont : yˆ(n) = − X p k=1 aky(n − k) (4.3) 51 Chapitre 4. Amélioration du signal de parole par le filtre de Kalman en utilisant la technique d’amélioration des formants où la variable entière n est l’indice temporel discret, yˆ est la prédiction de la parole bruitée y, et ak sont les LPCs. L’erreur de prédiction u(n), définie comme étant la différence entre la valeur de l’échantillon actuel y et sa valeur prédite yˆ est donnée par u(n) = y(n) − yˆ(n) = y(n) + P p k=1 aky(n − k) (4.4) A partir de l’équation (4.4) le signal généré ou modélisé par la prédiction linéaire peut être décrit par l’équation de réaction suivante y(n) = − X p k=1 aky(n − k) + u(n) (4.5) Le problème est la détermination des LPCs ak du signal de parole bruité y(n). La solution optimale pour obtenir les LPCs en minimisant l’erreur quadratique moyenne de la prédiction, en calculant le gradient de l’erreur quadratique moyenne de la prédiction par rapport au vecteur des LPCs a et en calculant l’erreur moyenne des moindres carrés : a = −R −1 yyryy (4.6) où : a T = [a1, a2, . . . , ap] ryy = [ryy(1), ryy(2), . . . , ryy(p)]T Ryy = ryy(0) ryy(1) ryy(2) · · · ryy(p − 1) ryy(1) ryy(0) ryy(1) · · · ryy(p − 2) ryy(2) ryy(1) ryy(0) · · · ryy(p − 3) . . . . . . . . . . . . . . . ryy(p − 1) ryy(p − 2) ryy(p − 3) · · · ryy(0) où Ryy = E(yyT ) est la matrice d’autocorrélation du vecteur d’entrée y T = [y(n − 1), y(n − 2), . . . , y(n − p)], ryy = E(y(m)y) est le vecteur d’autocorrélation et a T = [a1, a2, . . . , ap] est le vecteur des LPCs. Notez que le matrice d’autocorrélation p×p est symétrique et les éléments de toute la diagonale sont identiques (c.-à-d., une matrice de Toeplitz)
2 Etat de l’art sur l’amélioration de la parole |