Représentations paramétriques du signal de la parole

Représentations paramétriques du signal de la parole

Représentations sinusoïdales stationnaires du signal de la parole

La méthode de prédiction linéaire a été la représentation prédominante pour estimer les paramètres de base de la parole (par exemple : la hauteur, les formants, le spectre) et pour représenter la parole pour une transmission ou un stockage à faible débit binaire, jusqu’à la fin des années quatre vingt. Depuis ce temps, des représentations plus complexes qui offraient une meilleure qualité du signal, tel que la représentation sinusoïdale et ses dérivées sont apparues. Nous allons décrire dans ce chapitre plusieurs types de représentations sinusoïdales utilisées par les systèmes d’analyse-synthèse du son ou du signal de la parole. Dans la littérature, il existe deux approches différentes utilisées par les systèmes d’analyse-synthèse : l’approche uniforme et l’approche hybride. Dans l’approche uniforme, les systèmes d’analyse-synthèse traitent toutes les parties du signal vocal de la même manière, en tant que somme de sinusoïdes variant dans le temps. Par contre dans l’approche hybride, les systèmes d’analyse-synthèse décomposent la parole en deux composantes, généralement nommées partie déterministe et partie stochastique. Dans ce chapitre, nous présentons une brève description des plus importantes représentations sinusoïdales stationnaires du signal de la parole utilisées par ces deux types d’approches (uniformes et hybrides) ainsi que leurs processus d’analyse-synthèse. Ce chapitre se termine par une présentation de quelques exemples expérimentaux d’analyse-synthèse de signaux de paroles voisées et une conclusion.

Représentation sinusoïdale (R_S)

Dans la représentation sinusoïdale connue sous le nom « Sinusoidal Model (SM) » [31, 32, 33, 10] , le modèle d’excitation binaire voisée / non voisée de la représentation R_P L décrite dans le chapitre précédent est remplacé par une somme des fonctions sinusoïdales évoluant dans le temps. Ainsi, le signal de parole est toujours supposé être la sortie d’un filtre numérique variant lentement dans le temps avec une excitation qui capture la nature de la distinction voisée / non voisée dans la production de la parole (Excitation exprimée comme une somme de sinusoïdes). La représentation R_S est dès l’origine utilisée pour la génération et la transformation des sons (parole ou music). On peut dire que la représentation R_S est une application du théorème de Fourier qui montre que tout signal périodique peut être modélisé par une somme de sinusoïdes avec différentes fréquences et amplitudes. Pour l’analyse sinusoïdale, de nombreuses approches ont été proposées dans la littérature pour l’estimation des paramètres des représentations sinusoïdales. On peut citer deux importantes techniques d’estimations : La première utilise une analyse basée sur la transformée de Fourier (TF) et la deuxième est basée sur l’analyse des moindres carrés (MC)[4]. Pour la synthèse sinusoïdale, deux importantes techniques existent. La première catégorie utilise une technique d’interpolation de paramètres du modèle entre les trames successives avant la synthèse proprement dite et qui consiste à sommer toutes les composantes sinusoïdales (la synthèse par interpolation). La deuxième technique utilise le principe de chevauchement et addition de sinusoïdes (Synthèse type overlap-add) [4]. En essayant de représenter la parole par des modèles sinusoïdaux, plusieurs approches ont été proposées . La plus populaire et la plus célèbre représentation a été présentée dans [10]. Cette représentation s’est avérée plus générale que les représentations sinusoïdales antérieures.  Le modèle SM proposé dans [10] est basé sur la T F CT et caractérisé par les amplitudes, les fréquences et les phases des pics les plus importants dans le temps dans la série de spectres renvoyés par la T F CT. A partir de cette représentation, un son est généré en synthétisant une onde sinusoïdale pour chaque trajectoire de pic trouvé. Ainsi, nous pouvons interpréter la représentation R_S comme une simplification de la sortie de la T F CT, où seuls les pics spectraux pertinents sont pris en compte dans l’ensemble des spectres renvoyés par la T F CT. Ces pics, qui représentent chacun une sinusoïde, sont ensuite regroupés en trajectoires fréquentielles. Le signal de la parole résultant du modèle complet est écrit comme suit s(t) = X L l=1 al(t) cos(φl(t)) (2.1) avec φl(t) = Z t 0 ωl(τ )dτ (2.2) où L est le nombre des sinusoïdes ; a(t), φ(t) représentent respectivement amplitude et la phase de la sinusoïde. ω(t) est la fréquence instantanée en radian. La figure 2.1 [10] montre un schéma général d’un système d’analyse-synthèse basé sur le modèle SM. FIGURE 2.1 – Bloque diagramme simplifié du modèle sinusoïdal . En bref et d’après la figure 2.1, le système d’analyse-synthèse sinusoïdale commence par calculer la T F CT. Ensuite, à partir des spectres de magnitude et de phase renvoyés par la T F CT, une série de trajectoires de pics sont extraites par un algorithme de détection de pics. Chaque trajectoire de pic représente donc une sinusoïde caractérisée par des paramètres variables dans le temps (amplitudes, fréquences, phases). Ensuite un algorithme de poursuite de pics est utilisé par le système. La partie de synthèse du système utilise les trajectoires de pics pour générer des ondes sinusoïdales qui sont additionnées pour créer la forme d’onde synthétisée finale. Analyse-synthèse sinusoïdale Donnons maintenant plus de détails sur les étapes d’analyse-synthèse sinusoïdale. A l’étape de l’analyse, il est nécessaire d’estimer le nombre de composantes sinusoïdales, leurs amplitudes et leurs fréquences. À cette fin, la TFCT est utilisée. Ensuite, pour chaque trame, les pics spectraux sont obtenus en recherchant tous les maxima locaux sur le spectre d’amplitude en éliminant ceux dont l’amplitude est inférieure à un seuil donné. Il est important d’avoir les pics aussi bien résolus que possible. Il a été démontré qu’un « zéro-padding » donne un spectre plus lisse, ce qui rend la détection des pics plus facile et plus précise. Ici, le facteur de « zéro-padding » devrait être aussi grand que possible. La position des pics fournit les fréquences et les amplitudes des composants sinusoïdaux. Les phases de ces composantes sont calculées comme la phase de la transformée de Fourier à court terme pour une fréquence donnée. Pour chaque trame, on obtient ainsi un ensemble de L pics spectraux. Étant donné que le nombre de pics spectraux n’est pas constant (avec des amplitudes et des fréquences changeant lentement) l’étape suivante consiste à utiliser un algorithme de continuation ou de poursuite de pics qui a pour tâche l’assignation des pics aux trajectoires de fréquences en faisant correspondre les pics de la trame précédente avec celle en cours. Ces trajectoires sont « néesborn,” », ou « tuées- killed” » à n’importe quelle trame en augmentant l’amplitude de / ou vers 0. Dans le cas où une composante sinusoïdale est née (born) ou en train de mourir (dying), l’amplitude instantanée s’annule linéairement jusqu’à l’instant d’analyse suivant tandis que la fréquence instantanée reste constante jusqu’à la disparition de la composante. 31 Chapitre 2. Représentations sinusoïdales stationnaires du signal de la parole L’algorithme de poursuite des pics renvoie les valeurs des pics prédominants organisés dans les trajectoires de fréquence. Chaque pic est une triade (aˆ k l , ωˆ k l , φˆk l ) où k est le numéro de la trame et l est le numéro de piste auquel il appartient. Le processus de synthèse prend ces trajectoires, et calcule une trame du son synthétisé s k (n) en utilisant s k (m) = X Lk l=1 aˆ k l (t) cos(mωˆ k l + ˆϕ k l ) (2.3) où L k est le nombre de trajectoires présentes à la trame k Le son final s(n) résulte de la juxtaposition de toutes les trames de synthèse (c.à.d, qu’il n’y a pas de chevauchement). Pour éviter les « cliques » aux limites de la trame, les paramètres (aˆ k l , ωˆ k l , φˆk l ) sont interpolés d’une trame à l’autre. L’amplitude instantanée aˆ(m) est facilement obtenue par interpolation linéaire. Les valeurs de fréquence et de phase sont liées (la fréquence est la dérivée de la phase) et elles sont interpolées en utilisant une fonctions cubique [10]. Donc, pour obtenir le signal synthétique final, on doit générer une onde sinusoïdale pour chaque trajectoire de fréquence, et les additionner toutes. L’amplitude instantanée et la phase pour chaque onde sinusoïdale sont calculées en interpolant les valeurs d’une trame à l’autre. Il a été montré que la représentation R_S fournit une reconstruction très précise de la parole voisée et a été appliquée avec succès dans la synthèse de parole

Représentation ABS/OLA

La recherche présentée dans [53, 54] a étudié la possibilité d’utilisation d’une procédure d’analyse par synthèse (ABS) pour déterminer les paramètres d’une formulation d’un modèle sinusoïdal à chevauchement et addition (OLA). Le modèle proposé pour représenter s[n] est donc une formulation de modèle sinusoïdal OLA 32 Chapitre 2. Représentations sinusoïdales stationnaires du signal de la parole donné sous sa forme la plus générale par sˆ[n] = σ[n] X +∞ k=−∞ ws[n − kNs]ˆs k [n − kNs] (2.4) La fenêtre de synthèse ws(n) est une fenêtre complémentaire obéissant à la contrainte X +∞ k=−∞ ws[n − kNs] = 1 (2.5) Pour tout n, Ns détermine la longueur de la trame de synthèse. La contribution synthétique sˆ k [n], est donnée par sˆ k [n] = X J[k] j=1 A k j cos(2πf k j n/Fs + φ k j ) (2.6) où 0 < f k j < Fs/2, et la séquence d’enveloppe σ[n] reflète les variations de l’énergie de s[n] dans le modèle, afin d’augmenter la précision dans les régions transitoires de s[n]. Donc, sˆ[n] est une somme de formes d’onde synthétiques pondérées par des fenêtres chevauchées par Ns échantillons, additionnées et modulées par σ[n], où chaque forme d’onde synthétique est produite en additionnant des sinusoïdes d’amplitudes, de fréquences et de phases différentes . Analyse-synthèse ABS/OLA Comme avec toute approche basée sur la modélisation de la parole, il faut prendre soin de choisir Ns de telle sorte que le signal vocal puisse être supposé stationnaire sur un intervalle de trame donnée. Les valeurs typiques correspondent à des valeurs entre 5 et 20 msec, selon les exigences de l’application. L’ensemble de paramètres qui doit être déterminé pour représenter s[n] est constitué de la séquence d’enveloppe σ[n] et des amplitudes Ak j , des fréquences ω k j et des phases φ k j de chaque séquence de contribution synthétique sˆ k [n]. La détermination d’une envelope σ[n] est la premiere étape à effectuer. Étant donné σ[n], l’objectif de l’analyse est de déterminer les paramètres d’amplitude, de fréquence et de phase pour chaque sˆ k [n] dans l’équation 2.4 tel que sˆ[n] soit « le plus proche » de s[n] dans un certain sens. Une approche typiquement employée pour résoudre des problèmes de ce type consiste à minimiser l’erreur quadratique moyenne suivante E = X∞ n=−∞ (s[n] − sˆ[n])2 (2.7) en termes de paramètres de sˆ[n]. Cependant, tenter de résoudre ce problème simultanément pour tous les paramètres n’est pas pratique. Heureusement, si s[n] est approximativement stationnaire sur de courts intervalles de temps, il est possible de résoudre le problème pour les paramètres d’amplitude, de fréquence et de phase de sˆ k [n] isolément en approximant s[n] sur une trame d’analyse de longueur 2Na + 1 échantillons centré à n = kNs. La contribution synthétique sˆ k [n] peut alors être déterminée en minimisant E k = X Na n=−Na wa[n](s[n + kNa] − σ[s[n + kNa]ˆs k [n])2 (2.8) en termes des amplitudes, des fréquences et des phases de sˆ k [n]. Le but donc de l’analyse-par-synthèse (ABS) est de mettre à jour l’approximation de s[n] en ajoutant un seul composant telle que l’approximation de mise à jour soit aussi bonne que possible. Il a été montré dans [53, 54] que la représentation ABS/OLA fournie une bonne qualité de synthèse vocale comparée avec la représentation R_S suggérée dans [10].

Représentations sinusoïdales hybrides

Les représentations sinusoïdales décrites ci-dessus sont très adaptées à la modélisation des signaux de paroles périodiques. En effet dans ce cas particulier, un faible nombre de sinusoïdes est requis pour représenter ce type de signaux. Par contre pour représenter les signaux de la parole bruités, ces représentations, bien que toujours applicable, deviennent beaucoup moins adaptées, car un grand nombre de composantes sinusoïdales est alors requis. Dans la littérature, la séparation des composantes périodiques et apériodiques de la parole a gagnée beaucoup d’intérêt pour la recherche car les représentations sinusoïdales présentées dans les 34 Chapitre 2. Représentations sinusoïdales stationnaires du signal de la parole sections précédentes ne sont pas appropriées pour la manipulation de sons contenant des composants de bruit. Plusieurs autres techniques ont été proposées au cours des dernières décennies, afin de fournir des représentations plus flexibles et de haute qualité via une combinaison de sinusoïdes et de bruit. Un organigramme typique d’un système hybride est illustré à la figure 2.2 FIGURE 2.2 – Bloque diagramme simplifié de la représentation hybride Discutons brièvement les éléments d’un système hybride général. Tout d’abord, dans la partie analyse, l’étape de prétraitement inclut souvent des actions telles que l’estimation de la fréquence fondamentale, la décision voisée / non voisée, l’estimation de la fréquence de voisement maximale (Fm), filtrage, amélioration ou annulation de bruit. La partie déterministe est responsable de la modélisation des caractéristiques déterministes de la parole, tandis que la partie stochastique modélise la composante aléatoire du signal de la parole, comme le bruit de frottement, la parole non voisée, etc. Lorsque les paramètres d’analyse pour tous les composants vocaux sont estimés, ils sont transmis à l’étape de synthèse, où un prétraitement des paramètres est effectué, comme par exemple l’interpolation de paramètres ou l’estimation d’enveloppe spectrale, en cas de modifications de la parole. Enfin, chaque composant est synthétisé séparément et tous les composants sont additionnés  pour former le signal vocal synthétisé. Les systèmes hybrides sont considérés comme bien adaptés à la resynthèse et aux modifications prosodiques, puisqu’une séparation bien maîtrisée de la parole en une composante déterministe et une composante stochastique conduit à une meilleure manipulation et améliore la qualité de la synthèse et des modifications de la parole [12]. Des exemples typiques de tels systèmes hybrides sont brièvement décrit dans les sections qui suivent 

Représentation déterministique plus résiduel (R_DR)

Dans cete section, un modèle alternatif au modèle SM a été introduit dans [55, 56] qui considère qu’un son est composé d’une partie déterministe plus un résidu. Un signal déterministe est traditionnellement défini comme tout ce qui n’est pas du bruit (c.à.d, une partie parfaitement prévisible, prévisible à partir de mesures sur tout intervalle continu). Cependant, dans [55, 56], la classe des signaux déterministes considérés est limitée aux sommes des composantes quasi sinusoïdales (Sinus avec variation linéaire d’amplitude et de fréquence par morceaux). Chaque sinusoïde modélise une composante quasi sinusoïdale du son original et c’est un élément indépendant qui peut être synthétisé par lui même. La composante déterministe modélise donc les partiels (Un partiel est une composante sinusoïdale d’un son qui correspond généralement à un mode de vibration du système sonore producteur) du son. Le résidu est alors défini comme la différence entre la partie déterministe originale et la partie déterministe estimée. La somme des deux composants donne le son original. Dans le système proposé dans [55, 56], le modèle R_DR considère une forme d’onde s(t) comme la somme d’une série de sinusoïdes plus un résiduel e(t),

Table des matières

I Partie État de l’art
Chapitre 1 Généralités sur les techniques et les modèles de la synthèse vocale
1.1 Bref aperçu d’un système de synthèse de la parole à partir du texte (TTS)
1.2 Bref aperçu des techniques de la synthèse vocale
1.2.1 Synthèse par formants
1.2.2 Synthèse articulatoire
1.2.3 Synthèse concaténative
1.2.4 Synthèse par sélection d’unité
1.2.5 Synthèse par modèle de Markov caché (HMM)
1.3 Bref historique des représentations du signal de la parole
1.4 Signal de la parole et Mécanisme de production
1.5 Modélisation de la production de la parole
1.5.1 Représentations temporelles du signal de la parole
1.5.1.1 Représentation source-filtre (R_SF)
1.5.1.2 Représentation predictive linéaire (R_PL)
1.5.2 Représentation fréquentielle du signal de la parole
1.5.2.1 Représentation par la transformée de Fourier à court terme (TFCT)
3.5.2 Représentation adaptative harmonique plus bruit (aHNM) et représentation adaptative quasi harmonique étendue plus bruit (eaQHNM)
3.6 Représentations sinusoïdales adaptatives uniformes
3.6.1 Représentation harmonique adaptative (aHM)
3.6.2 Représentation adaptative quasi-harmonique étendue (eaQHM)
3.7 Exemples de reconstructions sinusoïdales adaptatives
II Contributions
Chapitre 2 Représentations sinusoïdales stationnaires du signal de la parole
2.1 Représentations sinusoïdales uniformes
2.1.1 Représentation sinusoïdale (R_S)
2.1.2 Représentation ABS/OLA
2.2 Représentations sinusoïdales hybrides
2.2.1 Représentation déterministique plus résiduel (R_DR)
2.2.2 Représentation déterministe plus stochastique (R_DS)
2.2.3 Représentation Harmonique plus Bruit (R_HB)
2.2.4 Représentation Déterministique plus Transitoire plus Stochastique (R_DTS)
2.3 Exemples de reconstruction sinusoïdale stationnaire
Chapitre 3 Représentations sinusoïdales adaptatives du signal de la parole
3.1 Analyse-synthèse basée sur les représentations sinusoïdales adaptatives
3.2 Représentation Quasi harmonique (QHM)
3.3 Représentation adaptative quasi harmonique (aQHM)
3.4 Représentation adaptative quasi harmonique étendue (eaQHM)
3.5 Représentations sinusoïdales adaptatives hybrides
3.5.1 Représentation adaptative quasi harmonique plus bruit (aQHNM)
Chapitre 4 Représentation sinusoïdale adaptative raffinée (R_aSR) du signal de la parole
4.1 Méthode proposée
4.2 Analyse préliminaire
4.3 Étape d’initialisation
4.4 Adaptation
4.5 Synthèse
4.6 Critère de convergence
4.7 Exemple de reconstruction utilisant la représentation R_aSR
née du signal de la parole
5.3 Bases de données utilisées
5.3.1 Base de données de parole Anglaise
5.3.2 Base de données de parole Arabe
5.4 Classification voisée / non voisée / silence
5.5 Estimation de la fréquence fondamentale
5.6 Exemple de reconstruction de la parole arabe
5.7 Tests d’évaluations
5.7.1 Test d’évaluation objective
5.7.2 Test d’évaluation subjective
5.8 Discussion
Conclusions et futures perspectives
Bibliographie
Chapitre 5 Application de la représentation sinusoïdale adaptative raffinée (R_aSR)
5.1 Applications des modèles sinusoïdaux adaptatifs
5.2 Système d’analyse-synthèse basé sur la représentation sinusoïdale adaptative raffi-

projet fin d'etudeTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *