la reconnaissance acoustique à la reconnaissance bimodale de parole
Le son est un élément majeur permettant à l’être humain d’appréhender son environnement. Il est également, par le biais de la parole, le vecteur naturel de la communication humaine. Présent dans de nombreux documents multimédias, il est, de ce fait, porteur d’une information précieuse pour leur compréhension. La reconnaissance automatique de la parole peut être basée directement sur une comparaison de formes nouvelles avec des références des mots à reconnaître, ou bien sur l’identification d’un ensemble d’unités élémentaires (phonèmes, diphones, syllabes). Dans le premier cas, il s’agit d’une reconnaissance dite globale (approche retenue dans ce travail), dans le second cas d’une reconnaissance dite analytique. Dans ce chapitre, nous donnons une définition rapide de la parole. Nous présentons ensuite les grands principes de la reconnaissance automatique de la parole, avant de nous intéresser aux méthodes bimodale de la RAP.
Définition de la parole
La parole est le mode de communication privilégié pour l’espèce humaine. Il est la représentation sonore d’un langage et est produit par le système vocal. La parole, comme représentation d’un langage, est constituée d’unités linguistiques, les mots. Pour décrire la représentation sonore de ces unités linguistiques, on utilise des phonèmes. Un phonème peut être défini comme la plus petite unité sonore distinctive que l’on peut obtenir par segmentation de la parole. Pour produire un phonème, le système vocal adapte sa configuration : débit de l’air, tension des cordes vocales et forme du conduit vocal. Les phonèmes sont classifiés en trois familles : les consonnes sont elles produites par occlusion totale (consonnes occlusives) ou partielle (consones fricatives, latérales ou vibrantes) du conduit vocal. Elles peuvent être non voisées — il n’y alors pas de vibration des cordes vocales et le son est essentiellement produit par un bruit (bruit de friction, d’explosion ou de relâchement) — ou au contraire voisées — elles sont alors produites aussi par vibration des cordes vocales. Les consonnes sont habituellement considérées comme des transitions rapides entre deux voyelles, avec donc une géométrie du conduit vocal qui varie rapidement. On peut donc dire que la caractérisation essentielle des consonnes c’est la nature du son, dans leur cas, un son de type « bruit » ou contenant un bruit ; les semi-voyelles ont des sons de type voyelle — vibration des cordes vocales et sans bruit — mais générés pendant une évolution rapide de la géométrie du conduit vocal. Leur son ne peut donc pas être considéré comme quasi-statique.
Le signal de la parole
Le signal de la parole n’est pas un signal ordinaire. Il est le vecteur d’un phénomène complexe : la communication parlée. La reconnaissance de la parole pose de nombreux problèmes aux chercheurs depuis 1950 (Allegre 2003). D’un point de vue mathématiques, il est difficile de modéliser le signal de parole, compte tenu de sa variabilité. Nous allons ici tenter de mettre en évidence quelques caractéristiques importantes du signal non stationnaire afin de faire ressortir les problèmes posés lors de son traitement (Haton 2006). Le signal de parole est extrêmement redondant. Cette grande redondance lui confère une robustesse à certains types de bruits. De nombreuses recherches sont menées afin de rendre les systèmes de reconnaissance robustes aux bruits, mais les performances humaines sont encore loin d’être atteintes.
La variabilité interlocuteur est encore plus accentuée. La hauteur de la voix, l’intonation et l’accent différent selon le sexe, l’origine sociale, régionale ou nationale. Un exemple pertinent de cette variabilité apparaît lorsque nous comparons la voix d’un locuteur originaire du Nord avec celle d’un locuteur originaire du sud de l’Algérie. Enfin, la parole est un moyen de communication où de nombreux éléments entrent en jeu, tels que le lieu, l’émotion du locuteur, la relation qui s’établit entre les locuteurs (stressante ou amicale). Ces facteurs influencent la forme et le contenu du message. L’acoustique du lieu (milieu protégé ou environnement bruité), la qualité du microphone, les bruits de bouche, les hésitations, les mots hors vocabulaire sont autant d’interférences supplémentaires sur le signal de parole. Dans un système de RAP, les paramètres acoustiques permettant de décrire le signal de parole sont généralement définis sur une échelle d’information de niveau local. Le signal continu de parole est fourni en entrée du système de RAP après une conversion sous la forme d’échantillons sonores. Une suite de vecteurs représentatifs, appelés vecteurs acoustiques ou vecteurs d’observation, est alors retournée en sortie du module de paramétrisation acoustique.