Les modèles acoustiques : modèles de Markov cachés
Les modèles acoustiques sont des modèles stochastiques qui sont utilisés conjointement à un modèle de langage afin de prendre des décisions quant-à la suite de mots contenue dans la phrase. Le rôle du modèle acoustique est de calculer la probabilité qu’un événement linguistique (phonème, mot, …) ait généré une séquence de vecteurs de paramètres extraits d’un signal de parole. Quelques caractéristiques importantes des modèles acoustiques doivent être prises en compte. D’un point de vue utilisabilité, les modèles acoustiques doivent être robustes puisque les conditions acoustiques de la tâche de reconnaissance sont souvent différentes des conditions d’entraînement. En effet, le signal de parole possède de nombreuses variabilités qui ont pour conséquence d’augmenter la disparité entre la réalisation acoustique et le contenu linguistique. D’un point de vue pratique, les modèles acoustiques doivent être efficaces. Pour que leur utilisation soit acceptable, il est nécessaire qu’ils respectent certaines contraintes temporelles et donc proposer des temps de réponse relativement courts. Les paramètres d’un modèle acoustique sont estimés à partir d’un corpus d’entraînement. Ce corpus d’entraînement est généralement transcrit manuellement.
Cela permet d’identifier les segments de parole correspondant à chaque événement linguistique. Actuellement, on distingue deux types de modèles acoustiques couramment utilisés : les modèles de Markov Cachés (Hidden Markov Model – HMM) utilisant des mixtures de gaussiennes (Gaussian Mixture Models – GMM, voir section 1.2.2), et les modèles hybridesHMMutilisant des réseaux de neurones (Artificial Neural Network – ANN, voir section 1.2.3). D’autres techniques (que je ne détaillerais pas) comme les machines à support vectoriel, ont récemment fait leur apparition. UnHMMest un automate probabiliste contrôlé par deux processus stochastiques. Le premier processus, interne au HMM et donc caché à l’observateur, débute sur l’état initial puis se déplace d’état en état en respectant la topologie du HMM. Le second processus stochastique génère les unités linguistiques correspondant à chaque état parcouru par le premier processus. Les sous-sections suivantes présentent les différents composants d’un HMM, ainsi que les techniques d’apprentissage et d’adaptation.
Analyse à résolution multiple
L’analyse à résolution multiple (Multi Resolution Analysis – MRA), décrite dans Perogaro (2000) et Gemello et al. (2006), effectue une analyse en ondelettes d’une fenêtre de signal audio. Cela consiste à faire passer le signal dans un arbre de filtres passe-bas et passe-haut, à la sortie desquels l’énergie à court terme est calculée (voir figure 2.4). À chaque niveau de l’arbre, le signal est entièrement décrit, mais dans une résolution fréquentielle et temporelle différente. Comme on peut le constater, la disposition des filtres n’est pas intuitive, car il faut prendre en compte le phénomène de repliement spectral qui recopie dans les basses fréquences le signal haute fréquence inversé. Ensuite, il faut regrouper les énergies calculées aux feuilles de l’arbre pour former les trames qui seront utilisées dans le système de reconnaissance de la parole. Considérons une fenêtre de taille N échantillons, qui se déplace de Méchantillons. Pour MRA, les valeurs utilisées pour N sont 256 (32 ms) ou 384 (48 ms), et M est fixé à 80 échantillons (soit 10 ms). À noter que ce front-end a été développé pour des applications téléphoniques. Le nombre d’échantillons obtenus dans les noeuds de l’arbre diminue quand on descend dans l’arbre, mais l’intervalle temporel associé aux échantillons filtrés reste inchangé. Selon le principe d’indétermination d’Heisenberg, il existe une relation entre la résolution temporelle et la résolution fréquentielle des échantillons dans les différentes sous-bandes. Sur la base de ce principe, le produit de la résolution en temps et celle en fréquence ne doit pas être inférieur à un certain seuil. Étant donné qu’à chaque niveau de l’arbre, la résolution fréquentielle est divisée par deux (cf. figure 2.4), on peut considérer des intervalles temporels d’intégration différents pour chaque niveau de l’arbre. Pour cela, on utilise l’extracteur de paramètres sur le même nombre d’échantillons à chaque niveau, ce qui a pour conséquence de diviser l’intervalle temporel par deux. Pour les 8 premières bandes (de 0 à 1 kHz) on utilise les 8 échantillons disponibles. Pour les 8 bandes suivantes (de 1kHz à 3 kHz) on n’utilise que les 8 échantillons centraux sur les 16 disponibles. Enfin, pour les deux dernières bandes (de 3 kHz à 4 kHz) on utilise seulement 10 échantillons sur les 32 dispo- À la sortie de ces filtres, on doit appliquer une opération d’extraction de paramètres acoustiques sur les échantillons filtrés obtenus. Notons ci les échantillons d’un noeud de l’arbre, et N leur nombre. Cette opération est appelée intégration. Les opérateurs disponibles pour l’intégration sont nombreux, les plus utilisés sont :
Paramètres acoustiques Tandem
Les paramètres tandem (Tandem Features), tels que présentés dans Hermansky et al. (2000), sont calculés à partir de paramètres discriminants obtenus à l’aide d’un réseau de neurones. Les systèmes de reconnaissance automatique de la parole utilisent en général des modèles à base de GMMs pour estimer les distributions de vecteurs de paramètres décorrélés qui correspondent à des unités acoustiques de courte durée (syllabes, phonèmes, phonèmes en contexte, …). En comparaison, les systèmes hybridesANN/HMMutilisent des réseaux de neurones entraînés de manière discriminante pour estimer les distributions de probabilité des unités étant donné les observations acoustiques. L’approche tandem consiste à combiner des paramètres discriminants issus d’un réseau de neurones avec une modélisation des distributions par GMMs. Le réseau de neurones génère les probabilités postérieures des unités qui sont ensuite transformés pour être utilisés comme paramètres d’entrée pour le modèle HMM/GMM qui est alors appris de manière conventionnelle. Les transformations sur les distributions de probabilité sont de différentes sortes. Les réseaux de neurones produisent directement des probabilités a posteriori contrairement aux mixtures de gaussiennes. Étant donné que les probabilités postérieures ont une distribution très biaisée, il est avantageux de les transformer en prenant leur logarithme par exemple. Une alternative à cela est d’omettre la dernière non-linéarité à la sortie du réseau de neurones. Cette nonlinéarité, le softmax, correspond à normaliser les exponentiels (ce qui est très proche de prendre le logarithme des probabilités). Les vecteurs de probabilités postérieures ont tendance à posséder une valeur élevée, correspondant au phonème prononcé, et les autres basses. Les réseaux de neurones n’ont pas la contrainte d’utiliser des paramètres acoustiques décorrélés comme les HMMs. Cependant, il s’avère que la transformation de Karhunen-Loeve, plus connue sous le nom d’analyse en composante principale (Principal Component Analysis – PCA) est utile pour décorréler les paramètres, vraisemblablement parce qu’elle augmente la correspondance entre les paramètres et les modèles à base de mixture de gaussiennes. Les principaux résultats obtenus avec ce genre de technique sont présentés dans Hermansky et al. (2000) et Morgan et al. (2004).
Autres paramètres acoustiques
Beaucoup d’autres paramètres acoustiques ont été développés afin, le plus souvent, de compléter les paramètres existants. La plupart d’entre eux ne sont pas suffisant, lorsqu’ils sont utilisés seuls, pour créer des modèles acoustiques performants. Ainsi, dans Vaseghi et al. (1997), l’utilisation de caractéristiques modélisant les segments phonétiques de la parole avec des paramètres spectrotemporels multi-résolution est proposée. Ces paramètres de corrélation décrivent la trajectoire de la parole sur la durée d’une unité phonétique. L’ajout de paramètres apportant de l’information différente a été considéré. Une caractéristique prosodique (le voisement) utilisée conjointement aux paramètres LPCC fournie une amélioration significative des résultats (Thomson et Chengalvarayan, 1998). Le paramètre de voisement est dérivé du signal temporel sous deux formes différentes : la périodicité (structure périodique du signal) et le jitter (petites fluctuations des cycles de la glotte). Des paramètres acoustiques représentant le voisement ont également été proposés dans Zolnay et al. (2002). Ces paramètres sont fondés sur l’analyse de la largeur et de la longueur des pics du spectre harmonique du signal de parole.
Dans Kamal Omar et Hasegawa-Jonhson (2002), plusieurs aspects du signal de parole sont considérés afin d’être sélectionnés pour former un nouveau vecteur d’observations. Ces caractéristiques comprennent : le voisement (voisé, non voisé, silence), la manière d’articulation (voyelle, nasale, fricative, stop, glide, silence), la position d’articulation (avant, latérale, basse, haute, arrière, …) et la durée (tendue/strident, relachée/non strident, réduite/agitée). Elles sont toutes issues des traits distinctifs donnés par Stevens (1998). Ces traits phonologiques X sont sélectionnés selon un critère d’information mutuelle maximum avec les paramètres acoustiques Y (MFCC ou PLP) défini comme suit : I(X,Y) = NΣ i=1 P(y|xi) log P(y|xi) P(y) dy (2.15) où N correspond à la taille du vecteur de traits phonologiques, xi à la ième valeur de ce vecteur. P(xi) est calculée en utilisant le corpus d’entraînement et P(y|xi) est modélisée par une fonction de densité de probabilité dans un GMM. D’autres techniques modifient le protocole de calcul de paramètres standards afin d’améliorer les paramètres. Dans Pujol et al. (2005), une technique de filtrage de fréquences a été employée pour décorréler les paramètres MFCC. Ce jeu de paramètres a montré de bonnes performances, seul ou en combinaison dans un système multi-flux avec les paramètres J-RASTAPLP, pour diverses tâches de reconnaissance plus ou moins bruitées. Dans Hariharan et al.
Introduction |