NESSR : Un système neuro-expert pour la reconnaissance de la parole

La reconnaissance de la parole

La reconnaissance automatique de la parole (RAP) est le processus par lequel la machine tente de «décoder» le signal de la parole qui lui est destiné. Les recherches relatives à la RAP débutèrent dans les années 1950, dans une conjoncture optimiste, car on pensait que les avancées technologiques des ordinateurs rendraient la RAP une tâche aisée. Quelques dizaines d’années plus tard, on se rendait compte que c’était faux, et que la RAP, demeure un problème difficile. Aujourd’hui encore nombre de questions restent posées, les difficultés majeures étant associées à la taille du vocabulaire à reconnaître, la reconnaissance de la parole continue, à la reconnaissance indépendamment du locuteur, la parole spontanée…
C’est aussi, une discipline qui prend de plus en plus d’ampleur et dont les applications sont aussi nombreuses que diversifiées.

Le connexionisme

Le connexionisme a connu trois grandes époques depuis sa création: l’ère de l’engouement à partir de 1958, date de la création du perceptron monocouche où l’on pensait à tort que les réseaux connexionnistes allaient pouvoir résoudre d’innombrables problèmes, l’ère de la désillusion suite au coup porté en 1969 par Minsky et Pappert ; ils démontrèrent que le perceptron monocouche ne pouvait réaliser une fonction aussi simple que le OU exclusif [Bishop, 95], puis l’ère du renouveau suite à la mise au point de la procédure d’adaptation des poids dans le perceptron multicouches. Ces dernières années on ne relève pas réellement d’événement fondamental lançant le connexionisme sur une nouvelle voie, mais on constate une réelle volonté de dépasser les limitations actuelles du connexionisme. Aussi, de nouveaux types de systèmes voient le jour, inspirés de la neurobiologie, de la psychologie ou mixant des techniques connexionnistes avec d’autres symboliques ou stochastiques (modèles hybrides). Dans ce sens la question de savoir si le connexionisme est à un tournant de son existence doit être posée. Dans tous les cas, l’ère du perceptron multicouches devra évoluer pour dépasser la « simple » classification de formes. Quels sont alors les points sur lesquels nous devons nous focaliser pour dépasser les défauts actuels ?

Caractéristiques du signal de la parole

Le signal de parole n’est pas un signal ordinaire : il s’inscrit dans le cadre de la communication parlée, un phénomène des plus complexes. Afin de souligner les difficultés du problème, nous faisons ressortir essentiellement quelques caractéristiques notoires de ce signal :
Un débit intense : D’un point de vue mathématique, il est ardu de modéliser le signal de parole, car ses propriétés statistiques évoluent au cours du temps.
Une extrême redondance : Lorsqu’on a vu une représentation graphique de l’onde sonore on est certainement frappé par le caractère répétitif du signal de parole. En effet, un grossissement visuel permettrait de voir une succession de figures sonores semblant se répéter à l’excès. Un peu de recul laisse apparaître des zones moins stables qu’il convient de qualifier de transitoires. En fait, ce qui semblerait de prime abord superflu, s’avère en réalité fort utile. Les répétitions confèrent à ce signal une robustesse car cette redondance le rend résistant au bruit.
Une grande variabilité : Une même personne ne prononce jamais un mot deux fois de façon identique. La vitesse d’élocution en détermine la durée. Toute affection de l’appareil phonatoire peut altérer la qualité de la production. Un rhume teinte les voyelles de nasalité ; une simple fatigue et l’intensité de l’onde sonore fléchit, l’articulation perd de sa clarté. La diction évolue dans le temps : l’enfance, l’adolescence, l’âge mûr, puis la vieillesse.
La variabilité inter-locuteur est encore plus flagrante. La hauteur de la voix, l’intonation et l’accent diffèrent selon le sexe, l’origine sociale, régionale ou nationale.
D’ailleurs, la reconnaissance du locuteur est un axe de recherche à part entière. Enfin, toute parole s’inscrit dans un processus de communication où entrent en jeu de nombreux éléments comme le lieu, l’émotion, l’intention, la relation qui s’établit entre les interlocuteurs. Chacun de ces facteurs détermine la situation de communication, et influe à sa manière sur la forme et le contenu du message.
Un lieu d’interférences : La production « parfaite » de chaque son suppose théoriquement un positionnement précis des organes phonatoires. Or, lorsque le débit de la parole s’accélère, le déplacement de ces organes est limité par une certaine inertie mécanique. Les sons émis dans une même chaîne acoustique subissent l’influence de ceux qui les suivent ou les précèdent. Ces effets de co-articulation sont des interférences. Ils entraînent l’altération des formes sonores en fonction des contextes droits ou gauches, selon des règles étudiées par les acousticiens d’un point de vue articulatoire ou perceptif.

Mécanisme de phonation et sons de la parole

La parole est le résultat de l’action volontaire et coordonnée des appareils respiratoire et masticatoire. Pendant l’élocution, un flux d’air en provenance des poumons traverse la trachée artère. Au sommet de celle-ci se trouve le larynx où les cordes vocales vibrent sous l’effet du passage de l’air à travers la glotte. Ces vibrations s’accompagnent de variations de longueur, de tension, et d’épaisseur des cordes. Cet air sera appliqué au conduit vocal qui s’étend du pharynx jusqu’au lèvres. L’onde acoustique, après avoir parcouru le pharynx, va pouvoir être plus au moins dérivée, selon la position du voile du palais vers les fosses nasales. Le flux d’air peut être arrêté par la fermeture des lèvres.  En simplifiant, on peut dire que la parole est le résultat de l’excitation des cavités nasales et/ou orales par une ou deux sources acoustiques. La première, essentielle elle génère des impulsions périodiques, l’autre peut s’ajouter ou se substituer à la première : il s’agit, cette fois, de bruit d’explosion ou de friction qui peuvent naître à l’intérieur du conduit vocal (de la glotte aux lèvres). Lors de l’émission sonore, le flux d’air produit à travers le conduit vocal un son de trois manières différentes :
En vibrant les cordes vocales de façon périodique ou quasi-périodique, produisant des sons voisés (source de voisement).
En réduisant la dimension du conduit vocal afin de provoquer une turbulence, produisant des sons fricatifs (source de bruit).
En libérant brusquement la pression accumulée derrière un obstacle, produisant les phases explosives des sons occlusifs.

L’analyse du signal

Le traitement numérique des signaux connaît depuis trois décennies un développement fulgurant. Une multitude de méthodes puissantes de traitement des signaux peuvent désormais être mise en œuvre grâce aux techniques numériques. L’étude de la parole a été un des domaines importants qui a bénéficié et qui continue de bénéficier du traitement numérique des signaux. Dans la suite du chapitre, nous présentons quelques unes des techniques les plus couramment utilisées en RAP. L’étape d’analyse du signal est une opération essentielle, elle a pour but de fournir une représentation moins redondante du signal de la parole que celle obtenue par codage de l’onde temporelle tout en permettant une extraction précise des paramètres significatifs et pertinents. Le signal analogique est fourni en entrée et une suite discrète de vecteurs, appelée trame acoustique est obtenue en sortie. Mais avant tout traitement il faut discrétiser le signal continu sortant du microphone, puis le stocker en mémoire sous forme numérique.

Table des matières

Introduction
1. Introduction générale
2. Position du problème
2. 1. La reconnaissance de la parole
2. 2. Le connexionisme
3. Problématique
4. Objectifs
5. Plan de la thèse
Partie I : Contexte d’étude et état de l’art
Chapitre I : Contexte d’étude
Présentation du chapitre
1. La communication
1. 1. La communication entre humains
1. 2. La communication homme-machine
2. Le signal de la parole
2. 1. Le signal de la parole
2. 2. Caractéristiques du signal de la parole
2. 3. Mécanismes de phonation et sons de la parole
3. La langue arabe
3. 1. Présentation
3. 2. Le système d’écriture
3. 3. La phonologie
3. 4. Caractéristiques phonétiques des phonèmes arabes
3. 4. 1. Lieux d’articulation
3. 4. 2. Traits distinctifs des phonèmes arabes
3. 4. 3. Autres particularités
4. Introduction à la reconnaissance automatique de la parole
Chapitre II : Reconnaissance automatique de la parole
Présentation du chapitre
1. La reconnaissance de la parole
1. 1. Introduction à la RAP
1. 2. Concepts de base
1. 3. Quelques systèmes de RAP
1. 4. Reconnaissance de la parole Arabe
1. 4. 1. Problèmes rencontrés en reconnaissance de l’Arabe
1. 4. 2. Travaux antérieurs
2. L’analyse du signal
2. 1. L’échantillonnage
2. 2. Le fenêtrage
2. 3. Extraction des caractéristiques
2. 3. 1. Méthodes temporelles
2. 3. 2. Méthodes fréquentielles ou spectrales
2. 3. 3. Méthodes cepstrales
3. Les approches de reconnaissance de la parole
3. 1. L’approche acoustico-phonétique
3. 2. L’approche reconnaissance de formes
3. 3. L’approche intelligence artificielle
4. Conclusion : Vers une combinaison de méthodes
Partie 2 : Outils utilisés
Chapitre III : Les réseaux de neurones en RAP
Présentation du chapitre
1. Un peu d’historique
2. Fondements des réseaux connexionnistes
2. 1. Le neurone formel
2. 1. 1. Le modèle de McCulloch et Pitts
2. 1. 2. Le modèle général
2. 2. Les connexions
2. 3. Topologies des réseaux connexionnistes
2. 4. Taxonomie des réseaux connexionnistes
3. Les mécanismes d’apprentissage
3. 1. L’apprentissage
3. 2. La règle de Hebb (1949)
3. 3. La règle de Widrow-Hoff
3. 4. L’algorithme de rétropropagation
4. Le Perceptron multicouches
4. 1. Le perceptron originel
4. 2. Le perceptron multicouches (MLP : MultiLayer Perceptron)
4. 2. 1. Structure du réseau
4. 2. 2. L’apprentissage
5. Les réseaux connexionnistes en RAP
5. 1. Les réseaux connexionnistes et le temps
5. 2. L’approche statique
5. 3. L’approche dynamique
5. 3. 1. Modèles à représentation externe
5. 3. 2. Modèle à représentation interne implicite
5. 3. 3. Modèle à représentation interne explicite
6. Quelques architectures de réseaux connexionnistes utilisées en RAP
6. 1. La carte auto-organisatrice de Kohonen
6. 2. Le TDNN (Time Delay Neural Network)
6. 2. 1. La structure du réseau
6. 2. 2. Le fonctionnement
6. 2. 3. L’apprentissage
6. 2. 4. Le TDNN et la reconnaissance de la parole
6. 3. Les réseaux récurrents
6. 3. 1. Le modèle de Jordan
6. 3. 2. Le modèle de Elman
6. 3. 3. Les réseaux récurrents et la parole
7. Conclusion : Vers des systèmes hybrides
Chapitre IV : Les modèles neurosymboliques
Présentation du chapitre
1. Introduction
2. Les deux paradigmes
2. 1. L’IA symbolique
2. 1. 1. Représentation et recherche
2. 1. 2. Les systèmes experts
2. 1. 3. L’apprentissage symbolique
2. 1. 4. Avantages et inconvénients
2. 2. L’IA connexionniste
2. 2. 1. L’apprentissage connexionniste
2. 2. 2. La représentation des connaissances
2. 2. 3. Avantages et inconvénients
2. 3. L’intégration des réseaux de neurones et des systèmes experts
3. Les systèmes neurosymboliques
3. 1. Les systèmes hybrides intelligents
3. 2. Les systèmes neurosymboliques
4. Taxonomie des systèmes neurosymboliques
4. 1. Les modèles combinés
4. 2. Les modèles transformationnels
4. 3. Les modèles couplés
5. Les systèmes experts connexionnistes
5. 1. Introduction
5. 2. Principe
5. 3. Exemple d’un système expert connexionniste
5. 4. L’algorithme Pocket
5. 5. EXPSYS : un autre exemple de CES
5. 6. Conclusion sur l’approche
6. L’approche KBANN
6. 1. Introduction
6. 2. Construction du réseau
6. 3. Conclusion sur l’approche
7. Conclusion
PARTIE III : Modèle proposé
Chapitre V : NESSR, Un système neuro – expert pour la reconnaissance de la parole
Présentation du chapitre
Partie A: Ancrage des symboles dans une architecture connexionniste
1. Introduction
2. Un modèle conceptuel pour la compréhension de la parole
3. De la connaissance au réseau de neurones
3. 1. Ancrage des symboles dans le réseau connexionniste
3. 2. Les neurones d’entrée
3. 2. 1. Les traits acoustiques
3. 2. 2. La quantification vectorielle
3. 3. La syllabe: l’unité de la décision
3. 4. Les relations de dépendances
4. Exemple d’un système expert connexionniste pour la RAP
5. Un KBANN pour la RAP
5.1. Les propositions
5. 2. Les clauses de Horn
5. 3. La structure du réseau
6. Conclusion
Partie B: Proposition d’un neurone temporel spécialisé, Application à la reconnaissance de la parole
1. Introduction
2. Description générale du réseau
2. 1. Introduction au modèle
2. 2. Architecture générale du système
2. 3. Ancrage des symboles dans le réseau
3. Le modèle du neurone temporel spécialisé
3. 1. Motivations
3. 2. Structure des neurones STN
3. 3. Activation du STN
4. La couche sensorielle : le niveau acoustique
4. 1. Structure des neurones : des neurones spécialisés
4. 2. Détermination des classes acoustiques
4. 3. L’activation d’un neurone
5. La couche d’association : le niveau phonétique
5. 1. Structure des neurones : des neurones temporels spécialisés
5. 2. Les connexions
5. 2. 1. La caractérisation d’un phonème
5. 3. L’activation d’un neurone-phonème
5. 3. 1. La pré-activation d’un neurone
5. 3. 2. L’activation d’un neurone
5. 3. 3. Exemple illustratif d’activation
5. 4. Caractéristiques du modèle des neurones-phonème.
6. La couche de décision
6. 1. Structure des neurones
6. 2. Activation
6. 3. La reconnaissance
7. Conclusion
Chapitre VI : Evaluation du modèle
Présentation du chapitre
1. Introduction
2. Extraction des caractéristiques
2. 1. Echantillonnage
2. 2. Isolement du mot
2. 3. Pré-accentuation
2. 4. Fenêtrage
2. 5. Fenêtrage de Hamming
2. 6. Analyse MFCC
3. La quantification vectorielle
3. 1. Définition
3. 2. Etablissement des classes par la méthode de LLOYD
généralisée
4. La reconnaissance de phonèmes
4. 1. La base de données
4. 2. Les résultats
5. La reconnaissance de mots
5. 1. Reconnaissance en mode monolocuteur
5. 2. Reconnaissance en mode multilocuteurs
5. 3. Etude comparative
6. Conclusion
Chapitre VII : Application à la détection de la dyslexie
Présentation du chapitre
1. Introduction
2. La dyslexie : la mal-lecture
3. DEDY : un système de détection de la dyslexie
3.1. Présentation générale
3.2. Batterie de test
3.3. Principe du test de lecture
3.4. Profil social
4. Module de reconnaissance
4.1. Le classifieur NESSR
4. 2. Le processus de reconnaissance
5. Module de décision
5.1. Structure du cas
5.2. Recherche de cas similaires
6. Résultats
Conclusion et Perspectives
1. Bilan
2. Perspectives du système NESSR
3. Perspectives du modèle STN
4. Perspectives d’amélioration
Références bibliographiques

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *