Évaluation de l’approche automatique de détection d’anomalies au niveau phonème

La dysarthrie

Les troubles de la communication sont définis par The American Speech and Hearing Association (ASHA) de la manière suivante : ”An impairment in the ability to receive, send, process, and comprehend concepts or verbal, nonverbal and graphic symbol systems. A communication disorder may be evident in the processes of hearing, language, and/or speech. A communication disorder may range in severity from mild to profound. It may be developmental or acquired. Individuals may demonstrate one or any combination of the three aspects of communication disorders. A communication disorder may result in a primary disability or it may be secondary to other disabilities“ (ASHA, 1993). Sur la base de cette définition, les troubles de communications englobent toute altération de la voix, du langage, de l’audition ou de la parole. La dysarthrie, étant un trouble de la parole, est alors un trouble de communication. Initialement, les dysarthries ont été décrites comme des troubles purement articulatoires. Peacher, dans (Peacher, 1950), était l’un des premiers à évoquer la possibilité de l’implication de facteurs autre que l’articulation relevant de la neurophysiologie, la psychologie, la phonétique instrumentale et de la pathologie de la parole (Auzou et al., 2000). En 1957, (Grewel, 1957) a proposé le terme de dysarthro-pneumo-phonie afin de rendre compte des atteintes non articulatoires de la dysarthrie. Cependant, ce terme bien qu’assez descriptif des différents niveaux d’atteintes dans la plupart des pathologies liées à la dysarthrie, ne s’est pas répandu dans la pratique courante. C’est en 1975, que Darley définit la dysarthrie comme un trouble de la réalisation motrice de la parole, secondaire à des lésions du système nerveux central et/ou périphérique (Darley et al., 1975). Actuellement, le terme ”dysarthrie“ englobe les troubles moteurs de la parole d’origine neurologique acquis et non développementaux (à l’exception de l’apraxie) (Auzou, 2007a). Cette définition se limite aux troubles d’origine neurogène et exclue les troubles mécaniques (fractures mandibulaires, fentes palatines, etc.) qui peuvent aussi affecter la parole. Les dysarthries sont multiples et résultent en plusieurs altérations perturbations (certaines générales et d’autres propres à chacune des dysarthries). Cette multitude de troubles a été le sujet de différents travaux de recherche ce qui a conduit à plusieurs classifications des dysarthries.

Classifications des dysarthries

Il existent plusieurs classifications des dysarthries qui reposent sur des considérations neurologiques, physiopathologiques, cliniques ou même des combinaisons des trois. La plus utilisée est celle de Darley (Darley et al., 1969b,a) qui se base sur les caractéristiques perceptives observées dans la parole dysarthrique. Cette classification est le résultat d’une étude perceptive réalisée sur 212 patients sur une tâche de lecture de texte. Les jurés ont côté, sur une échelle de 7 points, chacun des patients sur 38 paramètres regroupés en 7 catégories : hauteur, intensité, qualité vocale, respiration, prosodie, articulation ainsi qu’une évaluation globale de la parole (intelligibilité, bizarrerie). Les critères sont détaillés dans la figure 2.6. L’étude des relations entre les critères les plus déviants a permis de dégager des mécanismes physio-pathologiques. Lorsque la corrélation entre deux critères est à la fois significative et physiologiquement pertinente, les auteurs regroupaient ces critères dans un même ensemble, nommé ”cluster“. 8 clusters ont été identifiés et nommés en fonction de la physiopathologie sous-jacente supposée. La figure 2.7 illustre les 8 clusters dysarthriques de la classification de Darley. Ensuite, chaque type de dysarthrie a été décrit par ses clusters constitutifs. Cette description selon les clusters est rapportée dans la tableau 2.8. Six classes de dysarthrie ont été définies :

— dysarthrie flasque : causée par l’atteinte des moto-neurones périphériques (situées au niveau de la moelle épinière ou du bulbe rachidien), de la jonction neuromusculaire ou des muscles impliqués dans la production de la parole. Ces atteintes peuvent aussi se situer au niveau des nerfs crâniens et des nerfs spinaux innervant les muscles intervenant dans la production de parole. Dans l’étude de (Darley et al., 1969b), cette classe était représentée par des patients souffrant d’atteinte bulbaire ;

— dysarthrie spastique : causée par des lésions bilatérales des voies reliant les structures hémisphériques aux noyaux du tronc cérébral contrôlant les effecteurs de la parole. Dans l’étude de (Darley et al., 1969b), cette classe était représentée par des patients souffrant du syndrome pseudo-bulbaire ;

— dysarthrie ataxique : causée par une atteinte du cervelet ou des voies cérébelleuses d’origine dégénérative, vasculaire, démyélinisant, traumatique, néoplasique, inflammatoire, toxique ou métabolique. Dans l’étude de (Darley et al., 1969b), la présence de symptômes de dysfonctionnement cérébelleux était le critère d’inclusion à cette classe ;

— dysarthrie hypokinétique : causée par une atteinte des noyaux gris centraux du système nerveux. La cause la plus typique est la maladie de Parkinson. Dans l’étude de (Darley et al., 1969b), cette classe était représentée par des patients atteints de la maladie de Parkinson ;

Exemples d’échelles d’évaluation Échelle ”Dysarthria Profile“ (Robertson et Thomson 1982) : Elle permet une évaluation de la respiration, la phonation, la musculature faciale, les diadococinésies, les réflexes, l’articulation, l’intelligibilité et la prosodie. Échelle ”Frenchay Dysarthria Assessment“ (Enderby, 1983) : C’est une échelle composée de 28 épreuves reparties sur 8 catégories. Les 7 premières catégories constituent une évaluation fonctionnelle des organes et de leurs fonctionnement (réflexes, respiration, lèvres, mâchoires, voile du palais et langue). La grille d’Hartelin et Svensson (Enderby, 1983) : Cette grille comporte 54 items et permet d’évaluer la respiration, la phonation, la motricité oro-faciale, l’articulation, la prosodie et l’intelligibilité. Un test du temps maximum de phonation d’une voyelle et d’une fricative fait aussi partie du bilan. Échelle ”Unified Parkinson’s Disease Rating Scale“ – UPDRS : Elle est organisée en six sections comprenant chacun un certain nombre d’items. L’évaluation de la parole est l’item 18 appartenant à la troisième section (l’examen moteur). Il s’agit d’évaluer la parole sur une échelle de 0 à 4 : 0= parole normale ; 1= baisse légère de l’intonation et du volume ; 2= parole monotone, brouillée mais compréhensible, nettement perturbée ; 3= perturbation marquée de la parole, difficile à comprendre et 4= parole inintelligible. L’évaluation clinique de la dysarthrie (Auzou et al., 2000) : Cette évaluation est faite sur 4 étapes : (1) une conversation avec le patient donne au clinicien une première impression de l’intelligibilité globale, la prosodie, le nasonnement, etc. (2) une évaluation basée sur la grille ”Frenchay Dysarthria Assessment“ (3) une étude de la production des phonèmes et de mots permet de dresser l’état articulatoire du patient (4) une tâche de lecture d’un texte permet d’étudier la prosodie et les éventuelles fluctuations de la parole sur de longues durées. La Batterie d’Évaluation Clinique de la Dysarthrie – BECD (Auzou et Rolland-Monnoury, 2006) : Il s’agit d’une version approfondie et enrichie de l’échelle précédente.

Elle comprend une évaluation de la sévérité (score perceptif, intelligibilité, TPI), une analyse perceptive, une analyse phonétique, un examen moteur, une auto-évaluation et une analyse acoustique. La BECD regroupe 32 critères perceptifs : 12 sur la qualité vocale, 6 sur la réalisation phonétique, 12 sur la prosodie, un sur l’intelligibilité et un sur la naturalité de la parole. Tous les items de la BECD sont notés sur une échelle de 5 points allant de 0 (absence d’anomalie) à 4 (anomalie sévère). La Grille d’Évaluation Perceptive de la Dysarthrie – GEPD (Lhoussaine, 2012) : Cette échelle se base sur la BECD mais considère que cette dernière contient un nombre trop important de critères à évaluer et peut donc devenir longue et non adaptée dans la pratique clinique. Elle permet d’évaluer la parole sur 9 critères perceptifs. Les patients des différents corpus utilisés dans cette étude ont été évalués suivant cette échelle. Plus de détails sur cette dernière sont présentés dans la section 3.2.2.

Limites des échelles d’évaluation perceptive Bien qu’elle reste le ”gold standard“ dans la pratique clinique pour l’évaluation de la parole dysarthrique, l’évaluation perceptive de la parole présente plusieurs limites. Ces limites ont été soulevées dans les travaux de (Özsancak et Devos, 2007) et (Zyski et Weisiger, 1987) où la classification de Darley était difficilement réplicable en se reposant uniquement sur l’analyse perceptive de la parole. Ces travaux ont mis en évidence une des limites souvent attribuées à ce type d’évaluation : la non reproductibilité. Dans (Hirano, 1989), l’auteur note les différences qui persistent dans la définition même des critères perceptifs utilisés dans la caractérisation de la voix et de la parole et réclame le besoin d’un standard et de plus de précision non seulement dans les échelles d’évaluation mais aussi dans la terminologie utilisée. Néanmoins, la critique la plus souvent adressée à l’évaluation perceptive de la parole dysarthrique est son caractère subjectif. En effet, cette évaluation est très dépendante de l’auditeur qui la réalise, et même dans le cas d’experts de la parole dysarthrique, des différences de jugements peuvent subsister.

Ces différences sont conséquentes du fait que chaque auditeur possède une représentation de la normalité qui lui est propre et qui dépend de son expérience, âge, langue et même de certains facteurs socio-culturels. C’est ce que Fex a appelé le ”référent interne“ de chaque auditeur (Fex, 1992). On peut même argumenter qu’il n’y a pas de standard de parole normale sur laquelle tous les auditeurs peuvent se baser lors des évaluations. C’est ce caractère subjectif qui rend cette évaluation non reproductible, parfois même par le même auditeur. Afin de pallier ces limites, on a souvent recours à des jurys d’écoute dans le cadre des travaux de recherche afin d’obtenir une évaluation plus robuste et de diluer l’effet du référent interne de chaque auditeur. La fiabilité de l’évaluation dépendra alors de la variabilité inter-juge observée. Cependant, la réunion de ce type de jurys très coûteux matériellement et temporellement n’est pas adaptée au contexte d’évaluation clinique. En raisons de toutes ces limites, les cliniciens ont exprimé leur besoin de méthodes d’évaluation de parole plus objectives et robustes. Plusieurs méthodes ont été proposées, certaines reposant sur l’analyse instrumentale de la parole d’un point de vue acoustique, d’autres ont étudié la possibilité de l’utilisation des outils de traitement automatique de la parole (TAP) dans le cadre de l’évaluation de la parole pathologique.

Table des matières

1 Introduction
I État de l’art et contexte général
2 Parole pathologique et traitement automatique de la parole
2.1 La production de la parole
2.1.1 La parole : acte moteur volontaire
2.1.2 Les organes de production de la parole
2.1.3 Les sons du Français
2.2 La dysarthrie
2.2.1 Classifications des dysarthries
2.2.2 Pathologies liées à la dysarthrie
2.2.3 Évaluation perceptive de la dysarthrie
2.3 Traitement automatique de la parole pathologique
2.3.1 TAP pour l’évaluation de la parole
2.3.2 TAP dans les technologies de communication alternative et augmentée
2.3.3 Adaptation des modèles à la parole dysarthrique
2.3.4 TAP pour la parole ”atypique“
2.3.5 Motivations
2.4 Conclusion
3 Contexte Expérimental
3.1 Projets
3.1.1 DesPhoAPady
3.1.2 TYPALOC
3.2 Corpus
3.2.1 Le corpus VML
3.2.2 Le corpus DesPhoAPady
3.2.3 Le corpus TypALoc
3.2.4 Le corpus BREF
3.2.5 Le corpus Ester
3.3 Mesures d’évaluation
3.3.1 Évaluation de la qualité de l’alignement automatique
3.3.2 Évaluation de la détection d’anomalies
3.4 Conclusion
II Apport des outils de TAP face à la parole dysarthrique
4 Alignement automatique de la parole 69
4.1 Alignement automatique de la parole
4.1.1 Paramétrisation du signal
4.1.2 Modélisation acoustique de la parole : Modèles de Markov Cachés
4.1.3 Alignement automatique de la parole
4.2 Étude du comportement du système d’alignement face à la parole dysarthrique
4.2.1 Parole lue
4.2.2 Parole spontanée
4.2.3 Parole lue et parole spontanée
4.2.4 Confusion phonémique dans l’alignement automatique de la parole Lue
4.3 Conclusion
5 Détection automatique d’anomalies au niveau phonème 89
5.1 Approche de détection automatique d’anomalies
5.1.1 Extraction de paramètres
5.1.2 Classification
5.2 Évaluation de l’approche automatique de détection d’anomalies au niveau phonème
5.2.1 Application sur un corpus annoté au niveau phonème VML
5.2.2 Application sur un corpus non annoté DesPhoAPaDy
5.3 Discussion du comportement de l’approche de détection d’anomalies
5.3.1 Comportement face à la parole lue et spontanée
5.3.2 Détection d’anomalies et alignement de la parole
5.4 Localisation des anomalies sur les mots bisyllabiques
5.5 Conclusion
6 Évaluation perceptive de l’approche de détection automatique d’anomalies dans la parole dysarthrique
6.1 Protocole
6.1.1 Corpus
6.2 Résultats et discussions
6.3 Conclusion
7 Conclusions et perspectives
Liste des illustrations
Liste des tableaux
Bibliographie
Bibliographie personnelle
Annexes
A Corpus DesPhoAPady
B Consignes de l’évaluation perceptive