La parole et les dialectes du Maghreb

Facebook Tweet Pin Email

Connaître les paramètres caractérisant un locuteur est nécessaire pour tout système de traitement de la parole. Pour cela, nous devons avoir une bonne compréhension du processus de production de la parole. Ce dernier est un mécanisme très complexe qui repose sur une interaction entre les systèmes neurologique et physiologique de l’être humain. La parole commence par une activité neurologique. Après que soient survenues l’idée et la volonté de parler, le cerveau dirige les opérations relatives à la mise en action des organes phonatoires. Le fonctionnement de ces organes est bien, quant à lui, de nature physiologique.

Une grande quantité d’organes et de muscles entrent en jeu dans la production des sons des langues naturelles qui définissent un appareil phonatoire, se divisant en trois parties dont chacune définit un groupe d’organes qui assument les fonctions essentielles suivantes dans l’acte de parole ou de phonation :

• Partie sub-glottique, composée de l’appareil respiratoire (diaphragme, poumons, trachées), est une soufflerie qui fournit l’énergie et la quantité d’air nécessaire à la phonation en insufflant l’air vers la partie glottique.
• Partie glottique, composée du larynx, est un organe vibrant où naît le son. Il contient les cordes vocales (replis tendus horizontalement qui, sous l’effet des muscles, jouent un rôle de valve vis-à-vis de l’air des poumons libérant ainsi un flux d’air vers la partie supra-glottique).
• Partie supra-glottique, composée du conduit vocal, est formée des cavités orales (pharyngienne et buccale) à géométrie variable en fonction des éléments articulateurs (langue, mâchoire inférieure, lèvres) et des cavités nasales à géométrie fixe pouvant être couplées aux cavités orales par abaissement du voile du palais où s’effectue l’articulation proprement dite par les changements de forme du tractus vocal.

La physiologie de la production de la parole

La production de la parole est composée de deux fonctions mécaniques de base : la phonation et l’articulation.

La phonation

La phonation est la production du signal acoustique par vibration des cordes vocales. La fréquence fondamentale moyenne 𝐹0 de vibration des cordes vocales est située entre 140Hz et 240Hz pour les femmes, entre 100Hz et 150Hz pour les hommes. La mélodie de la voix résulte de cette vibration et se traduit phonétiquement par l’évolution de la fréquence fondamentale 𝐹0.

Les poumons jouent un rôle de soufflerie qui propulse une colonne d’air ascendante dans la trachée artère. La colonne d’air pulsée traverse le larynx, qui constitue l’organe phonateur. L’espace entre les cordes vocales est appelé la glotte . La glotte s’ouvre lors de l’inspiration et se referme lors de la phonation permettant aux cordes vocales de vibrer sous l’effet de la dépression de part et d’autre de l’espace glottique; ce qui génère un flux sonore appelé voisement. La production du voisement implique que les cordes vocales soient entièrement accolées et mises en vibration par le flux d’air ventilé par les poumons et véhiculé dans la trachée. Ainsi, la théorie acoustique de production de la parole distingue le mode «voisé», lorsque les cordes vocales vibrent périodiquement, et le mode «non voisé», lorsqu’elles ne vibrent pas. En réalité, le voisement se combine souvent avec une émission de bruit lors de la phonation (bruit d’aspiration, bruit de friction, bruit structurel, etc.).

L’articulation

L’air mis ou non en vibration poursuit son chemin à travers le conduit vocal et se propage ensuite dans l’atmosphère. La forme de ce conduit est déterminée par la position des articulateurs tels que la langue, la mâchoire, les lèvres ou le voile du palais, détermine le timbre des différents sons de la parole. Le conduit vocal est ainsi considéré comme un filtre pour les différentes sources de production de parole telles que les vibrations des cordes vocales ou les turbulences engendrées par le passage de l’air à travers les constrictions du conduit vocal.

L’articulation inclut la modulation du signal acoustique par les articulateurs (principalement les lèvres, la langue et le palais) et la résonance de ce signal dans les cavités supra-glottiques (le pharynx, la bouche, les fosses nasales et la cavité labiale) . Les deux premières sont toujours sollicitées pour l’articulation des sons de la parole alors que les cavités nasale et labiale n’interviennent que pour la réalisation de sons spécifiques. Si les lèvres sont projetées vers l’avant et arrondies, un résonateur se forme effectivement à la sortie du canal buccal, le résonateur labial. Si au contraire, elles sont appliquées contre les dents, le résonateur labial ne se forme pas.

Les phonèmes ainsi produits, reflètent des unités distinctives minimales, qui peuvent être des consonnes sourdes, des consonnes voisées, ou des voyelles. Nous pouvons exciter le résonateur complexe de l’appareil phonatoire de différentes manières, le mode d’excitation étant fonction du phonème à produire.

Le modèle de production de la parole

Le processus de production de la parole peut être représenté par le modèle source filtre . Le signal de parole est modélisé comme la sortie d’un filtre linéaire variant dans le temps, qui simule les caractéristiques spectrales de la fonction de transfert du conduit vocal, excité par un signal source qui reflète l’activité des cordes vocales dans les zones voisées et le bruit de friction dans les zones non voisées. Quoique simpliste, cette représentation est capable de décrire la majorité des phénomènes de la parole qui a été à la base de nombreux codeurs et synthétiseurs de parole .

Une approximation classiquement employée consiste à considérer que le signal de source est constitué d’impulsions générées aux instants de fermeture de la glotte auxquelles s’ajoute un bruit blanc. Dans un tel modèle , le spectre de la partie « Filtre », appelée aussi enveloppe spectrale, est composée du spectre du filtre décrivant le conduit vocal auquel s’ajoute la partie lisse du spectre glottique. Suivant le modèle du signal glottique utilisé, cette partie lisse du spectre du signal glottique peut être modélisée par un modèle Auto-Regressive d’ordre 2 ou 4 [Fant (85), Klat (90)]. Certaines caractéristiques de ce modèle Auto-Regressive telles que la position du formant glottique et la pente spectrale sont d’ailleurs utilisées pour caractériser la qualité vocale du signal de parole [Henr (01)]. La partie « Filtre » ainsi modélisée est porteuse des informations relatives à « l’empreinte » vocale d’un locuteur ; c’est pourquoi elle est également dénommée timbre.

Table des matières

Introduction Générale
Partie 1 : Parole, Dialectes et Identification Automatique
des Langues: État de l’art.
Chapitre 1 : La parole et les dialectes du Maghreb
1. La production de la parole et ses propriétés
1.1 La physiologie de l’appareil phonatoire
1.2 La physiologie de la production de la parole
1.2.1 La phonation
1.2.2 L’articulation
1.2.3 Le modèle de production de la parole
1.3 Les propriétés fondamentales de la parole
1.3.1 L’introduction du spectrogramme
1.3.2 La variabilité du signal de parole et ses perturbations
1.4 Les sons et phonétiques
1.4.1 Les voyelles
1.4.2 Les occlusives
1.4.3 Les fricatives
1.4.4 Les semi-voyelles
1.4.5 Les liquides
1.4.6 Les nasales
1.4.7 Les diphtongues
1.4.8 Les emphatiques
2. L’arabe standard et les dialectes du Maghreb
2.1 La langue arabe standard
2.1.1 La caractéristique de la langue arabe standard
2.2 Les dialectes arabes
2.3 Les dialectes Maghrébins
2.3.1 La relation entre les dialectes du Maghreb et l’Arabe standard……
2.3.2 Le vocabulaire emprunté des dialectes du Maghreb
2.3.3 Les différences de prononciation au Maghreb
2.3.4 Les dialectes du Maghreb et l’écrit
2.4 Conclusion
Chapitre 2 : Les Machines à Vecteurs Supports
2.1 Introduction
2.2 La Minimisation du Risque Structurel
2.3 Les Machines à Vecteurs Supports linéairement séparables
2.3.1 Calcul des Machines à Vecteurs Supports
2.4 Les Machines à Vecteurs Supports linéairement non séparables
2.4.1 La norme L1-SVM
2.4.2 La norme L2-SVM
2.5 Généralisation du cas linéaire des Machines à Vecteurs Supports
2.6 Généralités sur les noyaux
2.6.1 L’astuce du noyau
2.6.2 Propriétés mathématiques
2.6.3 Combinaison de noyaux
2.7 Les Machines à Vecteurs Supports et l’astuce noyaux
2.7.1 La norme L2-SVM et l’astuce noyau
2.8 L’apprentissage d’une Machine à Vecteurs Supports
2.9 Les Machine à Vecteurs Supports Multi-classes
2.9.1 L’approche multi-classe « un-contre-toute »
2.9.2 L’approche multi-classe « une-contre-une »
2.10 Conclusion
Chapitre 3 : Identification Automatique des Langues (IAL)
3.1 Introduction
3.1.1 Les enjeux en IAL
3.1.2 Les premières études de l’IAL
3.2 Classification supervisée des données numériques
3.2.1 Interprétation probabiliste
3.2.2 Les approches génératives
3.2.3 Les approches discriminantes
3.2.4 La combinaison des approches
3.3 Les informations de la parole pour l’IAL
3.3.1 Les indices différenciant les langues
3.3.2 Les informations de niveau locution
3.4 Description des systèmes d’IAL
3.4.1 Structure général d’un système IAL
3.4.2 Modèle mathématique d’un système IAL
3.4.3 Les systèmes acoustiques
3.4.4 Les systèmes phononotactiques
3.5 Les composants des systèmes IAL
3.5.1 Le prétraitement
3.5.2 L’apprentissage
3.5.3 L’attribution de scores
3.5.4 La prise de décision
3.6 Conclusion
Partie 2 : Vers un système d’identification des dialectes
Chapitre 4 : Système de réduction de données
4.1 Introduction
4.2 La plus petite boule englobante
4.2.1 La plus petite boule englobante dure
4.2.2 La plus petite boule englobante souple
4.2.3 Core-set
4.3 Classification basé L2-SVM – Nouvelle formulation
4.3.1 Classification binaire
4.3.2 Formulation Multi-classe
4.4 Equivalence L2-SVM / MEB
4.4.1 Affinement de l’équivalence
4.5 Partitionnement des données (Clustering)
4.5.1 Algorithme du k-plus proche-voisins
4.5.2 Algorithme des C-Moyennes Floues (Fuzzy C-Mean)
4.6 Les approches de réduction des données
4.6.1 Formulation
4.6.2 Instanciation pour l’approche multi-classe une-contre-une
4.6.3 Instanciation pour l’approche multi-classe une-contre-toute
4.7 Conclusion
Chapitre 5 : Développement de systèmes d’identification de
dialectes basé sur les Modèles de Mélanges de
lois Gaussiennes
5.1 Introduction
5.2 Système d’identification de dialecte basé sur les Modèles de Mélanges
de lois Gaussiennes gaussienne
5.2.1 Modèle de Mélange de lois Gaussiennes
5.2.2 L’identification de dialectes basée sur les Modèles de Mélanges de
lois Gaussiennes
5.3 Adaptation MAP – Maximum à Posteriori
5.4 La technique du modèle du monde
5.4.1 Le modèle du monde
5.4.2 Application de la technique du modèle du monde dans
l’identification des dialectes
5.4.3 Le rapport de vraisemblance
5.5 Les expérimentations
5.5.1 Le corpus
5.5.2 La paramétrisation du signal vocal …..
5.5.3 Expérimentation sur le système d’identification basé sur les
Modèles de Mélanges de lois Gaussiennes
5.5.4 Expérimentation sur le système d’identification basé sur les
Modèles de Mélanges de lois Gaussiennes et le modèle du monde
5.6 Conclusion
Conclusion Générale