Production et perception de la parole

Facebook Tweet Pin Email

La parole, ce fascinant moyen de communication entre les humains, est selon la définition du Robert [12] « la faculté de communiquer la pensée par un système de sons articulés émis par les organes de phonation », sa particularité tient sans doute à la complexité des fonctions que le cerveau humain met en œuvre pour la produire ou la comprendre, et ceci d’une manière pratiquement instantanée. C’est ces fonctions, que pourtant le cerveau exécutent inconsciemment, que des décennies de recherches et d’efforts continus n’ont pas encore permis d’égaler les performances ou d’entièrement cernés.

Par le fait de la position de la parole, au croisement de plusieurs disciplines on lui distingue plusieurs niveaux de description entre autres [13]:
• Le niveau phonétique : en phonétique, on essaie d’explorer la façon dont le signal est produit par le système articulatoire, l’analyse est effectuée sur trois plans complémentaires, perceptif, articulatoire, et acoustique.
• Le niveau phonologique: la phonologie a comme objectif d’étudier les variantes phonétiques contextuelles, elle introduit la notion d’unité abstraite du discours le « phonème », qui sera exposé dans la suite de ce chapitre. En reconnaissance de la parole, la phonologie regroupe l’ensemble des modules de traitement des altérations possibles d’un phonème (allophones ou variantes) ou d’un mot dans un contexte donné.
• Le niveau acoustique : les acousticiens s’intéressent aux traits acoustiques de la parole : sa fréquence fondamentale, son énergie, et son spectre. L’analyse est effectuée sur un signal électrique, un transducteur (le microphone) est utilisé pour réaliser le passage de l’acoustique à l’électrique.
• Le niveau morphologique : la morphologie est la branche de la linguistique qui étudie comment les formes lexicales sont obtenues à partir d’un ensemble réduit d’unités porteuses de sens, appelées morphèmes.
• Le niveau syntaxique : la syntaxe est l’ensemble des règles qui définissent l’exactitude des phrases, en effet une suite de mots du lexique ne forme pas forcément une phrase correcte.
• Le niveau sémantique : la sémantique est l’étude des significations des mots, et la façon dont ils sont liés les uns aux autres. Une phrase peut être correcte du point de vue syntaxique, sans l’être du point de vue sémantique.
• Le niveau pragmatique : la pragmatique est l’étude des aspects du langage qui font référence aux relations entre locuteur et interlocuteur, d’une part et entre interlocuteurs et situation concrète, d’autre part, le sens pragmatique est défini comme dépendant du contexte.

Description de l’appareil phonatoire

L’appareil phonatoire est composé principalement de trois éléments qui contribuent ensemble à la production de la parole. Ces éléments dont le contrôle et la coordination sont assurés par le système nerveux central, sont :
• les poumons :ils fournissent l’énergie (l’air) nécessaire à la production du son.
• le larynx : son rôle est la production des sons. C’est un ensemble de cartilages articulés comprenant les deux « cordes vocales ». Ces dernières sont des organes vibratoires constituées de tissu musculaire et de tissu conjonctif résistant.

• le conduit vocal : c’est le conduit entre le larynx et les lèvres, il est composé de plusieurs cavités reliées entre elles. On retrouve la cavité pharyngale (le pharynx), la cavité nasale (les fosses nasales), la cavité buccale (la bouche) et la cavité labiale (les lèvres).

La production de la parole

Lors de la production de la parole, un flot d’air émanant des poumons est contraint à passer dans le larynx, qui par le biais des cordes vocales va générer une vibration, les sons étant des ondes (donc des vibrations). Lorsque la pression d’air s’accumule sous les cordes vocales, elles sont forcées de s’ouvrir partiellement, leur tension naturelle les amène ensuite à se refermer, ce sont le débit du flot d’air et le degré d’ouverture des cordes vocales qui conditionnent l’intensité de l’onde ainsi produite. L’espace entre les cordes vocales s’appelle la glotte.

Les sons de parole sont produits soit par les vibrations des cordes vocales, dans ce cas on parle de sons voisés, soit par l’écoulement turbulent de l’air dans le conduit vocal, soit lors de relâchement d’une occlusion de ce conduit, alors on parle de sons non-voisés.

La fréquence du fondamental

La vitesse à laquelle les cordes vocales s’ouvrent et se referment lors du processus de phonation, produit une vibration d’une hauteur variable appelée fréquence du fondamental dont la valeur est étroitement liée à la taille de l’appareil phonatoire de la personne, cette fréquence est quasi stationnaire pour un signal de type voisé, elle varie de [14]:
• de 80 à 200 Hz pour une voix masculine,
• de 250 à 450Hz pour une voix féminine,
• de 200 à 600Hz pour une voix d’enfant.

Deux sons de même intensité et de même hauteur se distinguent par le timbre, qui est déterminé par les harmoniques du fondamental [14]. Un intérêt majeur pour la fréquence du fondamental se trouve dans les applications de la synthèse de parole.

Les formants

Le spectre du signal vocal résultant de l’action des sources de sons sur le conduit vocal présente des maximums et des minimums qui correspondent aux résonances et aux antirésonances du conduit vocal, appelés formants et anti-formants. Du point de vue perceptif, seul les trois premiers formants jouent un rôle essentiel pour caractériser le spectre vocal [14]. On peut caractériser toute voyelle en n’utilisant que ses trois premiers formants. En général la fréquence du premier formant varie de 200 à 900 Hz, celle du second de 500 à 2500 Hz et le troisième se situe entre 1500 et 3500 Hz. Des formants d’ordre supérieur existent même si leur rôle sur le plan perceptif est limité, ils contribuent à caractériser la voix.

Les sons en parole

Dans le processus de communication parlée, pour une langue donnée, les sons permettent de distinguer les différentes unités de signification du langage [2]. Pour réaliser cette distinction, les phonéticiens ont défini le phonème comme unité sonore minimale.

Le phonème
Le phonème [14] est la plus petite unité présente dans la parole et susceptible par sa présence de changer la signification d’un mot. Le nombre de phonèmes est toujours très limité, en générale il est inférieur à 50. La notion de phonème ne tient compte que des caractéristiques acoustiques qm permettent une distinction entre des mots [2], elle ne tient pas compte des phénomènes physiques de la production du son.

La classification des phonèmes Les phonèmes peuvent êtres rangés en catégories [2] selon des traits distinctifs qui indiquent une similitude au niveau articulatoire, acoustique ou perceptif. On retrouve les voyelles et les consonnes. Les voyelles sont caractérisées par la vibration des cordes vocales, le lieu de l’articulation et la stabilité des articulations produisant des sons tenus pendant un certain laps de temps, les voyelles peuvent être rangées selon :
• la nasalité.
• l’ouverture du conduit vocal.
• la position de la constriction du conduit vocal.
• l’arrondissement des lèvres.
Les consonnes se prononcent avec un rétrécissement du passage de 1′ air et sont classées selon:
• le voisement (selon que les cordes vocales vibrent ou non à leur passage).
• le mode d’articulation (occlusif, nasal, fricatif)
• le lieu d’articulation (labiale, dentale, palatale) .

Table des matières

INTRODUCTION
CHAPITRE 1 PRODUCTION ET PERCEPTION DE LA PAROLE
1.1 Introduction
1.2 Description de l’appareil phonatoire
1.3 La production de la parole
1.3.1 La fréquence du fondamental
1.3.2 Les formants
1.3.3 Les sons en parole
1.3 .4 La représentation de la parole dans les domaines temps et fréquence
1.3.5 Modèle de production de la parole
1.4 Audition et perception de la parole
1.4.1 Structure du système auditif
1.4.2 Acoustique de l’audition
1.5 Conclusion
CHAPITRE 2 OUTILS POUR LE TRAITEMENT DE LA PAR OLE
2.1 Introduction
2.2 Traitement du signal court-terme
2.2.1 Définition
2.2.2 Les fenêtres
2.2.3 Énergie à court- terme
2.2.4 Amplitude moyenne
2.2.5 Puissance à court terme
2.2.6 Le taux de passage par zéro à court terme
2.2.7 L’autocorrélation à court terme
2.3 La paramétrisation du signal
2.3.1 La méthode d’analyse par prédiction linéaire
2.3.2 L’analyse homomorphique
2.4 Conclusion
CHAPITRE 3 LA RECONNAISSANCE DE LA PAR OLE
3.1 Introduction
3.2 Les distances dans l’espace acoustique
3.2.1 La mesure de distorsion
3.2.2 La distance Euclidienne
3.2.3 La distance d’Itakura
3 .2.4 La distance cepstrale
3.2.5 La distance cepstrale pondérée
3.3 Les méthodes utilisées pour la reconnaissance de la parole
3.3.1 La programmation dynamique
3.3.2 Les modèles MMCs
3.3.3 La quantification vectorielle
3.4 L’apprentissage
3 .4.1 L’apprentissage mono locuteur
3.4.2 L’apprentissage multi-locuteurs
3.5 Conclusion
CHAPITRE 4 LA RÉALISATION DU SYSTÈME DE RECONNAISSANCE
4.1 Introduction
4.2 Description du système de reconnaissance
4.2.1 L’extraction de la parole
4.2.2 La segtn.entation
4.2.3 Extraction des paramètres
4.2.4 La création du dictionnaire de référence
4.2.5 La phase de reconnaissance
4.3 Le DSP
4.3.1 Introduction
4.3.2 Description du DSP TMS320C6711
4.3.3 Les outils de développement
4.4 Méthodologie de l’implémentation
4.4.1 Description de la base de donnée utilisée
4.4.2 Passage de 20 kHz à 8 kHz
4.4.3 L’acquisition du signal et restitution du résultat
4.4.4 Résultats expérimentaux
4.5 Conclusion
CONCLUSION