Reconnaissance de la parole

Reconnaissance de la parole

Un système de reconnaissance de la parole vise à transformer un signal acoustique reçu en entrée en une séquence de mots la plus proche possible de celle prononcée par l’utilisateur.Soit X = x L’utilisation de cette formule est très difﬁcile à cause de l’estimation de la probabilité P(WjX). Cette difﬁculté réside dans la grande variabilité dans l’ensemble de départ des observations acoustiques. Il est plus facile d’estimer la probabilité d’avoir une certaine séquence d’observations acoustiques X sachant une séquence de mots W. La formule de Bayes permet de décomposer le terme P(WjX) : Le problème est réduit à un problème d’optimisation par rapport à la séquence de mots W. La probabilité de la séquence d’observations acoustiques P(X) ne dépend pas de la séquence de mots W ce qui ramène le problème d’optimisation à :Un système de reconnaissance de la parole a pour but de trouver la séquence de mots la plus vraisemblable par rapport au message prononcé par le locuteur. Pour ce faire, le système utilise différents modules et modèles pour analyser et décoder le signal acous- tique reçu. Un système de reconnaissance de la parole (cf. ﬁgure 1.1) est composé d’un module d’analyse acoustique, présenté dans la section 1.1, suivi d’un décodeur de parole qui, à l’aide du modèle acoustique, présenté dans la section 1.2, et du modèle de langage, présenté dans la section 1.3, doit trouver une solution pour le problème d’optimisa- tion de l’équation 1.3. La problématique de la combinaison des modèles de langage et acoustiques est traitée dans la section 1.4. L’espace de recherche utilisé par le décodeur et les différentes sorties possibles sont présentés dans la section 1.5 et les méthodes d’évaluation d’un système de reconnaissance sont détaillées dans la section 1.6.

Le module d’analyse acoustique transforme le signal de parole en une séquence de vecteurs de coefﬁcients qui est fournie en entrée du décodeur de parole. Les vecteurs de coefﬁcients sont censés éliminer toute information qui n’est pas importante pour la reconnaissance comme les caractéristiques du locuteur (homme, femme), la réponse fréquentielle du canal ou toute sorte de bruit.Le signal de parole est divisé en fenêtres temporelles (trames) et chaque portion du si- gnal est alors analysée ; un vecteur de coefﬁcients est le résultat de l’analyse de chaque portion. Aﬁn de compenser dans une certaine mesure la forte pente spectrale du signal de parole dans le cas des voyelles et pour augmenter l’énergie du signal dans les hautes fréquences (spécialement pour les consonnes), le signal passe tout d’abord par un ﬁltre de pré-accentuation de premier ordre de type passe-haut. Pour diviser les signal de parole en trames nous utilisons des fenêtres de Hanning (des fenêtres de Hamming peuvent aussi être utilisées). La longueur de la fenêtre se situe habituellement dans un intervalle de 10-32 ms et les fenêtres successives ont un facteur de recouvrement de 40-60%. Si ce recouvrement n’existait pas on perdrait les informations contenues aux bords des fenêtres. Dans nos travaux, la longueur de la fenêtre de Hanning utilisée est de 32 ms et le recouvrement de 16ms (50%) ce qui donne un vecteur de 256 points avec un recouvrement de 128 points (pour un signal échantillonné à 8kHz).Il existe plusieurs méthodes pour analyser un signal de parole. Dans les année 70 la mé- thode la plus populaire était l’analyse linéaire prédictive (linear predictive analysis) (Ma- khoul, 1975) et les coefﬁcients cepstraux LPCC (Linear Prediction Cepstrum Coefﬁcient) associés (Rabiner et Juang, 1993). A partir du milieu des années 80, la représentation standard du signal de parole utilisée repose sur les Mel-Frequency Cepstral Coefﬁcients (MFCC) (Davis et Mermelstein, 1980). Dans nos travaux nous utilisons les MFCC et le processus de calcul de ces coefﬁcients est décrit ci-dessous.Le spectre du signal de parole est calculé pour chaque trame à l’aide de la FFT (la den- sité spectrale est égale au carré du module de la transformé de Fourrier) ; ensuite le spectre est ﬁltré à l’aide d’une série de ﬁltres triangulaires passe-bande espacés de ma- nière égale sur l’échelle de Mel.

variation des logarithmes de l’énergie. Le résultat est une représentation compacte du signal de parole où seulement 8 valeurs sufﬁsent ; le coefﬁcient d’ordre 0 qui est lié à l’énergie de la trame est souvent remplacé par une autre mesure d’énergie. Les para- mètres ainsi obtenus forment ce qu’on appel le vecteur statique.Du fait du recouvrement des trames, les vecteur de coefﬁcients sont sensiblement cor- rélés alors que la modélisation acoustique utilisée part de la prémisse que les vecteurs sont indépendants. Aﬁn de prendre en compte les corrélations temporelles qui peuvent exister entre les coefﬁcient cepstraux et rendre ainsi mieux compte de leur dynamique on rajoute les estimés de la dérivé première et seconde (les coefﬁcients dynamiques) du vecteur statique. Cette idée a été proposé pour la première fois dans (Furui, 1986). Les dérivés sont calculées par régression sur quelques trames adjacentes.Le vecteur de coefﬁcients qui décrit chaque trame du signal de parole est donc formé du vecteur statique (MFCC et l’énergie) et de leurs dérivés premières et secondes. Ainsi, chaque trame du signal est représentée par un vecteur de 27 coefﬁcients.