Le système Expresso
Présentation du système
Expresso est un système de transformation de l’expressivité, dont le but est de conférer une expression choisie, avec un degré d’expression désiré, à une phrase neutre donnée. Cette phrase peut provenir d’un enregistrement de voix réelle ou bien être le produit d’une synthèse TTS (Text To Speech). Dans le premier cas, si la segmentation phonétique n’a pas été effectuée manuellement, elle est fournie par la segmentation automatique. Cette étape nécessite la connaissance du texte pour de meilleurs résultats. Dans le second cas, la segmentation phonétique et le texte sont disponibles comme produits dérivés de la synthèse. La phrase à transformer, appelée phrase source, se présente donc au système sous la forme d’un fichier audio, du texte correspondant et de la segmentation phonétique associée. La figure 4.1 présente sous la forme d’un schéma, le fonctionnement du système Expresso. Fig. 4.1: Schéma de présentation du système Expresso. En haut et en vert, sont présentés les entrées du système. La phrase neutre source à transformer ainsi que l’expression et le degré d’intensité désirés. En bas et en rouge figure la sortie, une phrase transformée se présentant sous la forme d’un fichier audio muni d’une description largement héritée de celle de la phrase neutre source. De sorte de ne pas modifier les autres niveaux d’information de la parole, Expresso compare les versions neutres et expressives des acteurs, pour ne modéliser que la variation due à l’expression. Le modèle génératif permet de prédire la fa¸con dont un des acteurs enregistrés aurait prononcé la même phrase que la phrase neutre à transformer, dans une version neutre et dans une version expressive. La différence entre ces deux versions permet de définir la variation qu’apporte l’expression. Cette variation est alors appliquée à la phrase neutre source, par des algorithmes de traitement du signal, dans le but de lui ajouter l’expression désirée. Les étapes d’analyse préliminaires permettant de fournir un ensemble d’unités en contexte, ainsi qu’un modèle prosodique, tout deux représentatifs de la phrase à transformer ont été largement décrits dans les précédents chapitres 3.4.3 et 3.2.4. De même, le corpus de paires neutre-expressive a été présenté dans le chapitre 2.6.5. Cette partie s’attache donc à décrire le modèle génératif permettant de fournir des paramètres de transformation, ainsi que les algorithmes de traitement du signal utilisés pour conférer à la phrase neutre, l’expression souhaitée.
Paramètres des transformations
La définition des paramètres de transformation peut s’effectuer de plusieurs manières, selon qu’elle prend en compte des caractéristiques de l’entrée, des règles arbitraires, des contraintes, des cibles, des modèles ou bien une combinaison de ces différentes informations. En effet, une transformation peut être vue, soit comme une opération invariable, définie par des paramètres absolus, soit comme une opération dépendante de l’entrée, définie par des paramètres relatifs à certaines caractéristiques de l’entrée, soit par la différence entre une source (entrée) et une cible (provenant d’un exemple ou bien d’un modèle), dont les paramètres héritent d’une comparaison entre deux stimuli, l’entrée d’un côté et la cible de l’autre. Ces différents procédés de transformation ne sont que plusieurs visions de la même chose, puisque la comparaison de la source à une cible déduite d’un modèle dépendant de la source, conduit à un ensemble de paramètres de transformation, au même titre qu’un ensemble de règles définies de manière heuristique. La différence entre ces techniques de transformation réside uniquement dans la génération des paramètres, étape que nous appellerons par la suite, le contrôle.
Contrôle
Le contrôle est l’étape de définition des paramètres de transformation permettant de conférer à une phrase neutre Xneutre, l’expression désirée Sexpressivite = E avec un certain degré d’intensité Sdegree = D.
Contrôle absolu
Le contrôle peut être défini de manière heuristique et indépendante des caractéristiques de l’entrée. Notre première approche a été de déduire des valeurs de transposition, de dilatation/compression temporelle et de gain, de manière arbitraire, dans un premier temps, puis, de manière experte, à partir de l’observation manuelle du corpus expressif Combe2005. Un nombre restreint de règles a alors été élaboré, puisque les paramètres sont invariants dans le temps et indépendants de l’entrée (donc 3 paramètres à définir par expression et par degré). Par exemple, toute phrase neutre est transposée d’une octave vers le haut pour lui conférer de la joie avec un degré moyen. Bien entendu, cette réduction du problème à un petit ensemble de valeurs simplificatrices ne produit pas de résultats satisfaisants, puisque la parole est un phénomène dynamique et que, par conséquent, le contrôle doit évoluer dans le temps.
Contrôle adaptatif
Le contrôle adaptatif permet de faire évoluer les paramètres de transformation, selon certaines caractéristiques de la phrase à transformer Xneutre. L’analyse des corpus expressifs nous montre que deux types de variables peuvent caractériser l’entrée, appelée aussi la source. 4.3. Paramètres des transformations 95 variable unité card Description Sspeakerphrase phrase 4 Nom de l’acteur Ssexephrase phrase 2 Sexe du locuteur Smodalitephrase phrase 5 Modalité d’une phrase Sproeminencesyllabe syllabe 5 Proéminence d’une syllabe Sphonemephone phone 38 Phonème du phone Stextephrase phrase Texte orthographique Sexpressivitephrase phrase 15 Expression Sdegreephrase phrase 6 Degré d’intensité de l’expression Tab. 4.1: Noms, unités, cardinalités et descriptions des variables symboliques S D’un côté, des étiquettes symboliques permettent de la caractériser de manière symbolique et/ou catégorielle. Le sexe du locuteur Ssexephrase, la proéminence d’une syllabe Sproeminencesyllabe ou encore le phonème prononcé Sphonemephone , en sont des exemples. Ce type de variables est détectable par le préfixe notationnel S, qui traduit le caractère symbolique. Elles peuvent prendre un nombre d’états fini, si leurs valeurs appartiennent à un vocabulaire prédéterminé. On les nomme alors, des variables catégorielles. De l’autre côté, des grandeurs acoustiques sont estimées par analyse du signal de parole. Ces grandeurs sont des variables continues, c’est à dire qu’elles peuvent prendre une infinité de valeurs bien qu’elles soient le plus souvent bornées. Elles sont précédées d’un A qui signifie, grandeur acoustique. La moyenne de la fréquence fondamentale sur la phrase Af0 phrase moyenne, la pente du débit de parole sur un groupe de souffle Adebitgps pente ou la courbure de l’intensité sur un phone Aintphone courbure, en sont des exemples. Ces variables peuvent posséder plus d’une dimension. La prise en compte de ces différentes variables d’entrée rend le contrôle des paramètres de transformation, adaptatif. Trois approches se distinguent alors selon que l’on utilise les variables symboliques uniquement, les variables acoustiques uniquement, ou bien la réunion des deux. Adaptivité symbolique Les approches ne prenant en compte que les variables discrètes sont appelées approches contextuelles. Selon les différentes configurations des variables symboliques, ces approches générent des paramètres qui deviennent dynamiques parce que le contexte évolue le long de la phrase à transformer. Cette approche est aussi utilisée par la synthèse concaténative qui sélectionne des unités acoustiques, sur des critères symboliques issus de l’analyse du texte à synthétiser. Le tableau 4.1 recense les différentes variables symboliques présentées dans ce manuscrit, leur cardinalité, ainsi qu’une courte description pour rappel. Transformation en temps réel L’utilisation d’information de type symbolique n’est pas chose courante en temps réel. Si leur utilisation par un algorithme temps réel est tout à fait possible, leur génération appartient encore au temps différé. 96 Chapitre 4. Le système Expresso Deux raisons permettent d’expliquer pourquoi les données symboliques ne sont pas générées en temps réel. La première raison est de nature théorique. Un segment n’est définissable que dès lors que ces deux frontières temporelles sont intervenues. C’est à dire que l’étiquette d’un segment, n’est définissable que lorsque ce segment s’est déroulé dans son intégralité. Or, cette contrainte va à l’encontre de la définition même du temps réel. Un système temps réel convoqué par une entrée, doit produire une sortie correspondante, au plus tard, au bout d’un temps fini, et défini a priori. Or un segment (une voyelle par exemple) posséde une durée variable qu’il est difficile de borner (surtout en voix chantée). Une alternative est de fixer une limite de durée des segments, a priori, tout en sachant que cela peut engendrer des effets de bord (plusieurs voyelles segmentées au sein d’une seule et même voyelle). Dans tous les cas, plus la durée maximale autorisée est longue, plus le délai entre l’entrée et la sortie du système temps réel l’est aussi. Un compromis existe donc entre la taille maximale des segments et le délai acceptable pour leur traitement. La deuxième raison qui limite la génération des données symboliques en temps réel, provient de l’aspect subjectif de l’annotation. La plupart des variables symboliques permettent la catégorisation subjective des segments, à divers degrés de subjectivité. Si le sexe d’un locuteur parait un critère objectif, l’identité phonétique d’un phone peut engendrer des divergences entre annotateurs et la proéminence des syllabes encore plus. Cependant, de nombreuses applications permettent l’annotation automatique : les systèmes de reconnaissance de parole [Lanchantin 2008] produisent une séquence de phonèmes censée traduire la prononciation d’une phrase ; les outils d’annotation automatique de la proéminence [Obin 2008] distinguent les syllabes proéminentes sur différents degrés de proéminence. Toutefois, l’utilisation de ces systèmes automatiques reste toujours suivie d’une étape de vérification manuelle. Non seulement parce qu’ils font des erreurs, mais surtout car ils fournissent un résultat qui se veut le reflet d’une catégorisation subjective. Or l’annotation semi-automatique, qui comprend l’étape manuelle de correction d’un résultat automatique, n’est pas possible en temps réel pour des raisons évidentes (à moins que les unités soient très longues par rapport au temps du temps réel). La difficulté à générer des données symboliques, à la volée, réduit considérablement leurs utilisations en temps réel. Toutefois, des systèmes exploitent les résultats d’annotations effectuées en temps différé, pour des traitements en temps réel [Schwarz 2006].