Articulographie électromagnétique

Une voix sans larynx

Les cancers de la sph•re ORL, et du larynx en particulier, sont des maladies relativement frŽquentes9. DÕapr•s les derni•res statistiques publiŽes par lÕInstitut de Veille Sanitaire10 , datant de 2005, ils reprŽsentent, en France, environ 12 % de lÕensemble des cancers diagnostiquŽs. En 2005, l’incidence annuelle, ajustŽe pour lÕ‰ge, pour 100 000 personnes, Žtait de 3 800 cas de cancers du larynx. Cette affection touche essentiellement les hommes (1 femme pour 7 hommes). Le tabagisme actif en est la cause principale, aggravŽe par la consommation conjointe d’alcool et la respiration de mati•res cancŽrig•nes telle que l’amiante.
Le cancer du larynx peut na”tre dans n’importe quelle partie de cet organe. La tumeur prend gŽnŽralement la forme dÕune ulcŽration anormale dÕune des deux cordes vocales. Le traitement consiste alors en une radiothŽrapie et une chimiothŽrapie, associŽe ˆ lÕablation de la corde vocale atteinte (cordectomie). Cependant, lorsque lÕŽtendue du cancer est trop importante et touche la quasi totalitŽ de lÕorgane, lÕablation compl•te du larynx est nŽcessaire (laryngectomie totale11 ). Le larynx jouant le r™le dÕaiguilleur entre les voies respiratoires et digestives, son ablation nŽcessite lÕisolement de ces deux voies. Pour pouvoir respirer, le patient subit alors une trachŽostomie (trachŽotomie permanente), cÕest-ˆ-dire la mise en place dÕun trou au milieu du cou, reliŽ ˆ la trachŽe. La cavitŽ buccale est alors connectŽe exclusivement ˆ lÕÏsophage, ce qui permet une alimentation normale, comme lÕillustre la Figure 1.4.
Figure 1.4 : Appareil phonatoire dÕune personne laryngectomisŽe (ˆ droite, avant, ˆ gauche, apr•s lÕintervention)12
La laryngectomie totale a pour consŽquence la perte de la voix. En effet, lÕair pulmonaire passe exclusivement par le trachŽostome et ne peut donc pas atteindre la cavitŽ buccale. Sans air, la phonation est impossible. Pour la rŽtablir partiellement, plusieurs techniques existent. Tout dÕabord, le patient peut apprendre la technique dite de la Ç voix Ïsophagienne È qui consiste ˆ ingŽrer, puis ˆ renvoyer de lÕair par lÕÏsophage (Žructation). La voix digestive remplace alors la voie respiratoire dans le r™le de soufflerie. Au passage de cet air, la bouche Ïsophagienne, cÕest-ˆ-dire lÕorifice dÕabouchement de lÕÏsophage dans lÕhypopharynx (qui a une fonction dÕun sphincter), se met ˆ vibrer et forme ainsi un appareil vibrateur de substitution. LÕair ainsi mis en forme (pulsŽ) peut alors Ç rŽsonner È normalement dans les cavitŽs buccales et nasales ; la phonation est rŽtablie. Cette technique, bien que tr•s utilisŽe ˆ ce jour, reste relativement difficile ˆ maitriser. Chaque rŽjection dÕair ne permettant la production que dÕun nombre restreint de syllabes, la pratique de la voix Ïsophagienne demande une importante dŽpense dÕŽnergie. De plus, la parole gŽnŽrŽe est gŽnŽralement de faible volume et demande parfois une amplification ˆ lÕaide dÕun dispositif Žlectronique externe. La seconde alternative proposŽe au laryngectomisŽ est la Ç voix trachŽo-oesophagienne È. Cette technique consiste ˆ rŽaliser une communication entre la trachŽe et lÕÏsophage (fistule), par la mise en place, par voie chirurgicale13 , dÕun implant phonatoire. Ce dernier fonctionne en Ç sens unique È ; il autorise le passage de lÕair pulmonaire de la trachŽe vers lÕÏsophage mais interdit celui de la salive, des aliments et des liquides de la cavitŽ buccale vers la trachŽe. A la diffŽrence de la voix Ïsophagienne, lÕair nÕa plus besoin dÕ•tre ingŽrŽ. Lorsque le trachŽostome est obstruŽ ˆ lÕaide dÕun doigt ou gr‰ce ˆ une valve trachŽale automatique, lÕair pulmonaire est redirigŽ depuis la trachŽe vers lÕÏsophage et vient faire vibrer la bouche Ïsophagienne, permettant ainsi la phonation. Cette technique est plus Ç confortable È que la voix Ïsophagienne, elle est physiquement moins exigeante, la durŽe possible de phonation est plus longue, et la parole produite est gŽnŽralement dÕune intelligibilitŽ plus satisfaisante. NŽanmoins, la mise en place de la voix trachŽo-oesophagienne nÕest pas toujours possible14 et la prŽsence de lÕimplant phonatoire peut parfois entra”ner de complications (fuites alimentaires autour de l’implant, granulomes, dŽplacements etc.).
Bien quÕintelligible, la parole produite par ces deux techniques reste, de plus, dÕune qualitŽ relativement limitŽe. UtilisŽe comme appareil vibrateur de substitution, la bouche Ïsophagienne vibre moins vite que de vŽritables cordes vocales et la hauteur de la parole produite est gŽnŽralement tr•s basse. La frŽquence de cette vibration Žtant difficilement contr™lable, lÕintonation de la parole produite est quasiment plate. Une comparaison de la voix trachŽo-Ïsophagienne et de la voix laryngŽe est proposŽe ˆ la Figure 1.5. La frŽquence fondamentale estimŽe est basse et varie tr•s peu15 .
En complŽment de ces approches, anatomique, chirurgicale et mŽcanique, diffŽrents travaux de recherche, basŽs cette fois sur le traitement du signal acoustique, ont Žgalement ŽtŽ effectuŽs pour amŽliorer la qualitŽ de la communication parlŽe chez le laryngectomisŽ. LÕobjectif principal de ces travaux est le rŽtablissement des caractŽristiques de voisement et dÕintonation. Dans (Yingyoung, 1990), le codage par prŽdiction linaire (LPC) est utilisŽ dans le cadre de la voix trachŽo-Ïsophagienne, pour amŽliorer la qualitŽ des voyelles, par analyse puis Ç re-synth•se È du signal ˆ lÕaide dÕune fonction dÕactivation basŽe sur une impulsion glottale naturelle ; la frŽquence fondamentale moyenne est, de plus, lissŽe puis rehaussŽe. Dans (Matsui, 1999), une approche similaire est proposŽe dans le cas de la voix Ïsophagienne ; lÕamŽlioration des caractŽristiques spectrales du signal est ici effectuŽe ˆ lÕaide de la technique de synth•se par formants. Plus rŽcemment, des approches basŽes sur les techniques dites de Ç conversion de voix È (ou morphing vocal) ont ŽtŽ proposŽes (Del Pozo, 2008). Initialement dŽveloppŽes pour transformer la voix dÕun locuteur source en celle dÕun locuteur cible, ces techniques sont ici employŽes pour convertir le signal produit par la voix trachŽo-Ïsophagienne (la source) en celui qui serait produit par le m•me locuteur sÕil disposait encore de sa voix laryngŽe (la cible). Ces techniques sont basŽes sur lÕapprentissage dÕune Ç fonction de conversion È, qui sÕobtient en modŽlisant, par des mŽlanges de gaussiennes, les densitŽs de probabilitŽs conjointes des param•tres dÕexcitation (frŽquence fondamentale) et de timbre (caractŽristiques spectrales) des voix source et cible.
Ces diffŽrentes techniques sÕappuient exclusivement sur lÕanalyse du signal acoustique, gŽnŽrŽ ˆ lÕaide des techniques de voix Ïsophagienne ou trachŽo-Ïsophagienne, puis traitŽ. Ces approches sont donc utiles pour la communication ˆ distance, en transmettant par exemple le signal acoustique amŽliorŽ sur le rŽseau tŽlŽphonique. NŽanmoins, la communication parlŽe Ç face ˆ face È reste plus dŽlicate car le signal per•u par lÕauditeur est alors une superposition du signal transformŽ et du signal original. M•me si certains traitements peuvent •tre rŽalisŽs quasiment en temps rŽel, la prŽsence rŽsiduelle de ce dernier reste inŽvitable.
Dans le cadre de ce travail, nous proposons une approche diffŽrente, basŽe non sur lÕanalyse du signal acoustique mais sur lÕacc•s direct aux mouvements articulatoires qui en sont ˆ lÕorigine. LÕobjectif est alors de synthŽtiser un signal acoustique, dÕune qualitŽ similaire ˆ celle dÕun signal produit en voix laryngŽe, ˆ partir uniquement dÕinformations de nature Ç non acoustique È sur lÕactivitŽ de lÕappareil vocal. Dans cette approche, la phonation nÕest plus nŽcessaire. Le locuteur articule normalement mais ne produit aucun son ; il ne vocalise pas. Il produit alors ce que nous appellerons par la suite, une Ç parole silencieuse È, convertie en un signal acoustique audible par ce que nous qualifierons dÕ Ç interface de communication en parole silencieuse È ou ICPS.

Interface de communication en parole silencieuse : état de l’art

DestinŽe ˆ reconstituer un signal audible ˆ partir dÕinformations inaudibles, ˆ interprŽter une parole normalement articulŽe mais non vocalisŽe, une interface de communication en parole silencieuse pourrait reprŽsenter pour les patients laryngectomisŽs, une alternative ou un complŽment aux techniques existantes dŽcrites ˆ la section prŽcŽdente. NŽanmoins, son champ applicatif est plus large ; il sÕŽtend notamment au secteur des tŽlŽcommunications civiles et militaires. Une ICPS permettrait en effet la communication parlŽe dans un milieu o• la discrŽtion est capitale, comme dans le cadre dÕune opŽration de sŽcuritŽ (prise dÕotage), ou tr•s apprŽciable, par exemple pour tŽlŽphoner dans un transport en commun sans dŽranger les autres voyageurs. Une ICPS constituerait Žgalement la base dÕun syst•me mains-libres de saisie silencieuse de donnŽes, utilisable notamment pour la transmission confidentielle de codes et autres mots de passe. NÕŽtant pas basŽe sur lÕanalyse du signal acoustique recueilli en sortie de la cavitŽ buccale, ce type dÕinterface pourrait Žgalement faciliter la communication dans un environnement extr•mement bruyant, o• la modalitŽ acoustique est trop bruitŽe pour •tre utilisable.
Interface homme-machine rŽunissant des techniques dÕinstrumentation et de modŽlisation issues de domaines divers comme le traitement automatique de la parole, les sciences du langage et la bio-ingŽnierie, les interfaces de communication en parole silencieuse constituent un domaine de recherche relativement rŽcent. Le concept dÕun synthŽtiseur de parole pilotŽ exclusivement par la saisie de lÕactivitŽ articulatoire appara”t pour la premi•re fois en 1985 dans (Sugie et Tsunoda, 1985). A partir des signaux recueillis par trois capteurs electromyographiques17 disposŽs sur le visage du locuteur, le syst•me dŽcrit est capable, dans 71% des cas, dÕidentifier correctement les cinq voyelles du japonais, puis de les restituer sur un haut parleur externe. Dans (Hasegawa et Ohtani, 1992), le m•me objectif de dŽcodage des voyelles est poursuivi, mais le capteur utilisŽ est cette fois ci une camŽra vidŽo qui fournit une image des l•vres du locuteur pendant lÕarticulation. LÕutilisation de la modalitŽ visuelle de la parole, cÕest-ˆ-dire lÕimage des l•vres, en complŽment de la modalitŽ acoustique (le signal audio) avait par ailleurs dŽjˆ ŽtŽ proposŽe par Petajan (Petajan, 1984), dans le but dÕamŽliorer les performances dÕun syst•me de reconnaissance automatique de la parole en prŽsence de bruit. Cependant, dÕapr•s les rŽsultats de phonŽtique articulatoire prŽsentŽs ˆ la section 1.1, le pouvoir de discrimination phonŽmique des l•vres est relativement limitŽ. Ainsi la prononciation de langue anglaise est gŽnŽralement dŽcrite ˆ lÕaide dÕun jeu dÕenviron 40 phon•mes, supposŽ dŽcrire autant de configurations articulatoires diffŽrentes, mais seuls 13 groupes de phon•mes prŽsentant des configurations labiales distinctes peuvent •tre constituŽs. Ces groupes de Ç sosies labiaux È sont nommŽs vis•mes (visual phoneme ; (Fisher, 1968)). Pour cette raison, on consid•re dÕailleurs que la lecture labiale ne permet de percevoir que 30 % environ du message oral Žmis ; le reste de la comprŽhension sÕeffectue notamment par supplŽance mentale (intŽgration du contexte) et par lÕinterprŽtation dÕinformations non verbales comme certains gestes manuels, faciaux (mimiques) et corporels (Dumont et Calbour, 2002). Ainsi, lÕimage des l•vres ne permet pas de distinguer suffisamment de configurations articulatoires pour •tre utilisŽe, seule, dans le cadre dÕune ICPS. La mise en Ïuvre de techniques instrumentales permettant lÕacc•s aux mouvements des articulateurs internes est donc nŽcessaire. De lÕŽtude de la littŽrature rŽcente (depuis 2000) sur la rŽalisation dÕune ICPS, se dŽgagent diffŽrentes approches. Ces derni•res sont bri•vement dŽcrites dans les paragraphes suivants18 .