Connaître les paramètres caractérisant un locuteur est nécessaire pour tout système de traitement de la parole. Pour cela, nous devons avoir une bonne compréhension du processus de production de la parole. Ce dernier est un mécanisme très complexe qui repose sur une interaction entre les systèmes neurologique et physiologique de l’être humain. La parole commence par une activité neurologique. Après que soient survenues l’idée et la volonté de parler, le cerveau dirige les opérations relatives à la mise en action des organes phonatoires. Le fonctionnement de ces organes est bien, quant à lui, de nature physiologique.
Une grande quantité d’organes et de muscles entrent en jeu dans la production des sons des langues naturelles qui définissent un appareil phonatoire, se divisant en trois parties dont chacune définit un groupe d’organes qui assument les fonctions essentielles suivantes dans l’acte de parole ou de phonation :
• Partie sub-glottique, composée de l’appareil respiratoire (diaphragme, poumons, trachées), est une soufflerie qui fournit l’énergie et la quantité d’air nécessaire à la phonation en insufflant l’air vers la partie glottique.
• Partie glottique, composée du larynx, est un organe vibrant où naît le son. Il contient les cordes vocales (replis tendus horizontalement qui, sous l’effet des muscles, jouent un rôle de valve vis-à-vis de l’air des poumons libérant ainsi un flux d’air vers la partie supra-glottique).
• Partie supra-glottique, composée du conduit vocal, est formée des cavités orales (pharyngienne et buccale) à géométrie variable en fonction des éléments articulateurs (langue, mâchoire inférieure, lèvres) et des cavités nasales à géométrie fixe pouvant être couplées aux cavités orales par abaissement du voile du palais où s’effectue l’articulation proprement dite par les changements de forme du tractus vocal.
La physiologie de la production de la parole
La production de la parole est composée de deux fonctions mécaniques de base : la phonation et l’articulation.
La phonation
La phonation est la production du signal acoustique par vibration des cordes vocales. La fréquence fondamentale moyenne 𝐹0 de vibration des cordes vocales est située entre 140Hz et 240Hz pour les femmes, entre 100Hz et 150Hz pour les hommes. La mélodie de la voix résulte de cette vibration et se traduit phonétiquement par l’évolution de la fréquence fondamentale 𝐹0.
Les poumons jouent un rôle de soufflerie qui propulse une colonne d’air ascendante dans la trachée artère. La colonne d’air pulsée traverse le larynx, qui constitue l’organe phonateur. L’espace entre les cordes vocales est appelé la glotte . La glotte s’ouvre lors de l’inspiration et se referme lors de la phonation permettant aux cordes vocales de vibrer sous l’effet de la dépression de part et d’autre de l’espace glottique; ce qui génère un flux sonore appelé voisement. La production du voisement implique que les cordes vocales soient entièrement accolées et mises en vibration par le flux d’air ventilé par les poumons et véhiculé dans la trachée. Ainsi, la théorie acoustique de production de la parole distingue le mode «voisé», lorsque les cordes vocales vibrent périodiquement, et le mode «non voisé», lorsqu’elles ne vibrent pas. En réalité, le voisement se combine souvent avec une émission de bruit lors de la phonation (bruit d’aspiration, bruit de friction, bruit structurel, etc.).
L’articulation
L’air mis ou non en vibration poursuit son chemin à travers le conduit vocal et se propage ensuite dans l’atmosphère. La forme de ce conduit est déterminée par la position des articulateurs tels que la langue, la mâchoire, les lèvres ou le voile du palais, détermine le timbre des différents sons de la parole. Le conduit vocal est ainsi considéré comme un filtre pour les différentes sources de production de parole telles que les vibrations des cordes vocales ou les turbulences engendrées par le passage de l’air à travers les constrictions du conduit vocal.
L’articulation inclut la modulation du signal acoustique par les articulateurs (principalement les lèvres, la langue et le palais) et la résonance de ce signal dans les cavités supra-glottiques (le pharynx, la bouche, les fosses nasales et la cavité labiale) . Les deux premières sont toujours sollicitées pour l’articulation des sons de la parole alors que les cavités nasale et labiale n’interviennent que pour la réalisation de sons spécifiques. Si les lèvres sont projetées vers l’avant et arrondies, un résonateur se forme effectivement à la sortie du canal buccal, le résonateur labial. Si au contraire, elles sont appliquées contre les dents, le résonateur labial ne se forme pas.
Les phonèmes ainsi produits, reflètent des unités distinctives minimales, qui peuvent être des consonnes sourdes, des consonnes voisées, ou des voyelles. Nous pouvons exciter le résonateur complexe de l’appareil phonatoire de différentes manières, le mode d’excitation étant fonction du phonème à produire.
Le modèle de production de la parole
Le processus de production de la parole peut être représenté par le modèle source filtre . Le signal de parole est modélisé comme la sortie d’un filtre linéaire variant dans le temps, qui simule les caractéristiques spectrales de la fonction de transfert du conduit vocal, excité par un signal source qui reflète l’activité des cordes vocales dans les zones voisées et le bruit de friction dans les zones non voisées. Quoique simpliste, cette représentation est capable de décrire la majorité des phénomènes de la parole qui a été à la base de nombreux codeurs et synthétiseurs de parole .
Une approximation classiquement employée consiste à considérer que le signal de source est constitué d’impulsions générées aux instants de fermeture de la glotte auxquelles s’ajoute un bruit blanc. Dans un tel modèle , le spectre de la partie « Filtre », appelée aussi enveloppe spectrale, est composée du spectre du filtre décrivant le conduit vocal auquel s’ajoute la partie lisse du spectre glottique. Suivant le modèle du signal glottique utilisé, cette partie lisse du spectre du signal glottique peut être modélisée par un modèle Auto-Regressive d’ordre 2 ou 4 [Fant (85), Klat (90)]. Certaines caractéristiques de ce modèle Auto-Regressive telles que la position du formant glottique et la pente spectrale sont d’ailleurs utilisées pour caractériser la qualité vocale du signal de parole [Henr (01)]. La partie « Filtre » ainsi modélisée est porteuse des informations relatives à « l’empreinte » vocale d’un locuteur ; c’est pourquoi elle est également dénommée timbre.
Introduction Générale |