Synthèse de parole expressive au delà du niveau de la phrase

Synthèse de parole expressive au delà du niveau de la phrase

Parties du Discours

Les parties du discours permettent de classer les mots rencontrés en neuf catégories principales : adjectif, adverbe, article, conjonction, interjection, nom, préposition, pronom et verbe. Selon la procédure d’analyse utilisée, des informations complémentaires sont utilisées pour décrire ces unités lexicales : mode, voix, personne, nombre et temps des verbes, le type de pronom (possessif, démonstratif, indéfini, personnel, relatif), etc. Ces parties du discours ont été obtenues grˆace à deux procédures distinctes. Le premier système d’extraction utilisé est un outil interne du LIMSI. Ce système est basé sur des modèles de Markov cachés (HMM)(Rabiner and Juang, 1986) entraˆınés sur le corpus MULTITAG (Allauzen and Bonneau-Maynard, 2008). Le format d’encodage des informations extraites à l’aide de cette procédure est détaillé dans Rajman et al. (1997). La seconde procédure d’extraction des parties du discours est basée sur des arbres de décision probabilistes (Schmid, 1994). L’outil TreeTagger 1 est utilisé, en se servant des modèles entraˆınés sur la langue française par Stein and Schmid (1995). La table 3.1 décrit l’accord observé entre les deux systèmes d’annotation des parties du discours, en se restreignant aux neuf catégories principales. Pour chaque catégorie morphosyntaxique, le nombre d’unités pour lesquelles les deux systèmes sont en accord est mentionné. Le nombre d’alarmes correspond aux unités d’une catégorie donnée détectées par un seul système. L’accord est estimé à l’aide de la F-Mesure, définie par l’équation 3.1. F = 2 ∗ nb accords 2 ∗ nb accords + AlarmesT ree−T agger + AlarmesHMM (3.1) L’accord estimé sur l’étiquetage varie en fonction des différentes catégories morphosyntaxiques observées. Pour la plupart des catégories, il est supérieur à 90%, à l’exception des interjections (.1%) et des adjectifs (81.3%). Ces différences soulignent la difficulté liée à l’obtention de parties du discours par le biais de procédures automatiques. Cette difficulté peut être partiellement expliquée par les spécificités du matériel utilisé, à savoir des contes pour enfants. La plupart des systèmes d’extraction d’information sont optimisés pour fonctionner sur des articles de journaux ou des textes médicaux (Maarouf and Villaneau, 2012; Goh et al., 2012) et non pas sur des textes de fiction. A défaut de pouvoir connaitre le système d’étiquetage le plus adapté au cas du conte ` pour enfants, les informations obtenues peuvent être combinées pour accroitre la robustesse des systèmes dont le fonctionnement nécessite l’utilisation de parties du discours.

Lemmatisation et Racinisation

La lemmatisation consiste à déterminer la forme canonique d’un mot (par exemple : chevaux → cheval). Pour les verbes il s’agit de l’infinitif, pour les noms et adjectifs il s’agit de la forme masculin singulier. La racinisation, également appelée désuffixation (en anglais stemming) consiste à obtenir la forme tronquée d’un mot, en supprimant ces suffixes et flexions (ex : chevaux → cheva). Bien que les buts de ces procédures soient proches, elles présentent différents avantages et inconvénients. Les procédures de lemmatisation très souvent basées sur des dictionnaires de formes fléchies, ont tendance à échouer à la moindre faute d’orthographe rencontrée. Elles nécessitent de désambig¨uiser le mot considéré, ce qui peut entrainer des erreurs de résolution. Les procédures de racinisation ne nécessitent pas de prendre en compte le contexte des mots rencontrés, et ont l’avantage d’être moins sensibles aux fautes d’orthographe. Elles gèrent relativement mal les différentes flexions pouvant être rencontrées sur les verbes irréguliers. Les lemmes ont été obtenus en utilisant l’algorithme TreeTagger (Schmid, 1994), utilisé avec le fichier de paramètres pour la langue française réalisé par Achim Stein (Stein and Schmid, 1995). Les racines des mots sont obtenues en utilisant les règles exprimées en langage Snowball (Porter, 2001) fournies dans NLTK (Loper and Bird, 2002). La table 3.2 recense quelques exemples illustrant les cas o`u l’usage de ces procédures peut être problématique.

 Synsets et Hyperonymes

 Les synsets (de l’anglais : synonym set, ensemble de synonymes) sont des ensembles de mots interchangeables dans un contexte donné (exemple : manger, déjeuner, se nourrir, grignoter, …). Les mots polysémiques (qui ont plusieurs sens) appartiennent à plusieurs synsets. Les hyperonymes sont des catégories dont le sens inclut celui d’un autre mot (fruit est un hyperonyme de kiwi, pomme, orange). L’annotation des synsets et hyperonymes a été réalisée en utilisant la base de données WOLF (Sagot et al., 2008), qui est une traduction en Français du projet anglophone Wordnet (Miller, 1995). Chaque mot de la base est associé à une liste de synsets correspondant à ses différentes significations. La probabilité d’appartenance d’un mot à un synset est également mentionné. Les synsets y sont organisés sous forme d’ontologie : c’est-à-dire sous forme d’arbre défini tel que le père d’un noeud soit son hyperonyme. L’étiquetage des synsets et des hyperonymes a consisté à faire correspondre les mots aux synsets pour lesquels ils ont la plus grande probabilité d’appartenance (sans prise en compte du contexte d’apparition). Chaque mot a été associé à l’identifiant numérique de son synset, ainsi qu’aux identifiants de ses hyperonymes pour des profondeurs fixées. 

Structure Syntaxique 

La structure syntaxique des textes est représentée sous forme d’arbre syntaxique abstrait, comme illustré par la figure 3.1. L’arbre est obtenu à partir de règles opérant sur les parties du discours obtenues à l’aide du système décrit précédemment (Allauzen and Bonneau-Maynard, 2008). Les règles de construction de l’arbre sont définies pour être utilisées avec le moteur d’expressions régulières WMATCH (Galibert, 2009; Rosset et al., 2009). Ce moteur permet de générer des structures arborescentes à partir d’expressions régulières définies sur des mots, ou d’autres structures arborescentes. La structure arborescente est ensuite convertie de manière à pouvoir être représentée à l’aide d’un attribut multidimensionnel par mot, comme illustré par la figure 3.2.

Table des matières

1 Introduction
1.1 L’art de raconter des histoires
1.2 Contexte : Le projet GV-LEx
1.3 Objectifs
1.4 Démarche
1.5 Organisation du manuscrit
2 Conception et Analyse d’un corpus textuel de contes
2.1 Résumé du chapitre
2.2 Etat de l’art : les corpus de contes annotés
2.3 Constitution du corpus GV-LEx
2.3.1 Collecte de contes
2.3.2 Normalisation des textes
2.3.3 Protocole d’annotation
2.4 Schéma d’annotation
2.4.1 Enumérations étendues
2.4.2 Entités nommées étendues
2.4.3 Tours de parole
2.4.4 Structure narrative
2.5 Couverture et Répartition des Annotations
2.5.1 Unités textuelles
2.5.2 Annotations anaphoriques et chaˆınes de coréférence
TABLE DES MATIERES
2.6 Accord inter-annotateurs
2.6.1 Segmentation en épisodes
2.6.2 Identification des éléments structurels et lexicaux
2.6.3 Référencement des personnages
3 Module d’extraction d’informations linguistique
3.1 Résumé du chapitre
3.2 Annotation des unités lexicales
3.2.1 Signes de Ponctuation
3.2.2 Parties du Discours
3.2.3 Lemmatisation et Racinisation
3.2.4 Synsets et Hyperonymes
3.2.5 Structure Syntaxique
3.2.6 Transcription phonétique
3.3 Module de détection automatique de tours de parole
3.3.1 Modèle de détection basé sur des automates simples
3.3.2 Modèles basés sur des Champs Conditionnels Aléatoires Linéaires
3.3.3 Evaluation
3.3.4 Conclusion Partielle
3.4 Modèles de segmentation en épisodes
3.4.1 Modèles de segmentation en épisodes basés sur des automates
3.4.2 Modèles des segmentation statistiques
3.4.3 Conclusion partielle
3.5 Module d’extraction des actes de dialogue et de modes de communication
3.5.1 Modes de communication
3.5.2 Actes de dialogue
3.5.3 Conclusion partielle
4 Conception et Analyse d’un corpus oral de contes
4.1 Corpus oraux de contes annotés .
4.2 Enregistrement d’un corpus de contes
4.3 Alignement lexical et phonétique de la parole
4.3.1 Transcription lexicale de la parole
4.3.2 Procédure d’alignement
4.4 Annotations
4.5 Stylisation Prosodique
4.5.1 Estimation de descripteurs prosodiques bruts
4.5.2 Stylisation basée sur un modèle de perception tonale
4.5.3 Enregistrement des données stylisées dans des feuilles de calcul
4.5.4 Représentation graphique du corpus GV-LEx
4.5.5 Stylisation basée sur le Prosogram
5 Analyse Prosodique
5.1 Introduction
5.2 Descripteurs prosodiques
5.3 Comparaison des propriétés prosodiques globales du corpus de contes à dautres
corpus de parole
5.4 Propriétés prosodiques liées aux étiquettes d’épisodes
5.5 Caractéristiques prosodiques liées à l’incarnation des personnages
5.5.1 Impact de l’ˆage et du genre sur les distributions de fréquence fondamentale
et d’intensité
5.5.2 Regroupement des personnages basé sur leur profil prosodique
5.6 Analyse et modélisation de la durée des pauses
5.6.1 Motivations
5.6.2 Méthodologie .
5.6.3 Distributions des pauses .
5.6.4 Modélisation non paramétrique de la durée des pauses en fonction de la taille
du contexte
5.6.5 Modèles paramétriques
5.6.6 Impact des tours de parole sur la durée des pauses
5.7 Conclusion partielle
6 Un prototype de synthèse de parole expressive
6.1 Résumé du chapitre 02
6.2 Architecture du système de synthèse de parole expressive
6.3 Caractéristiques du synthétiseur de parole utilisé
6.3.1 Instructions prises en charge
6.3.2 Voix de synthèse
6.3.3 Outil d’édition manuelle des paramètres expressifs utilisés pour la synthèse
6.4 Module d’annotation prosodique automatique
6.5 Méthodologie d’évaluation du prototype de synthèse
6.6 Analyse des résultats du test perceptif
6.6.1 Evaluations réalisées par les enfants
6.6.2 Evaluations réalisées par les adultes
7 Conclusion
7.1 Contributions de la thèse
7.1.1 Constitution, évaluation et diffusion de corpus
7.1.2 Extraction automatique d’informations dans des textes fictifs
7.1.3 Description des propriétés prosodiques observées dans les contes lus
7.1.4 Prototype de synthèse de parole expressive
7.2 Perspectives de recherche
7.2.1 Extension du schéma d’annotation proposé
7.2.2 Mise en application de l’ensemble des règles prosodiques formulées
7.2.3 Raffinement des modèles de prédiction de la durée des pauses 126
7.2.4 Vers une reformulation du texte
7.3 Publications liées à la thèse
7.3.1 Article de revue à comité de lecture
7.3.2 Conférences avec actes
7.3.3 Communication sans actes
Bibliographie
A Document Type Definition (DTD) utilisée pour l’annotation du corpus texte
B Exemple de conte annoté : Le petit chaperon rouge
C Modélisation CRF des tours de parole
C.1 Données d’entrée
C.2 Patron d’extraction de fonction features
D Propriétés prosodiques associées aux personnages
E Textes sélectionnés pour l’évaluation du système de synthèse
E.1 Erik , le paysan rusé
E.2 Crétin de paon
E.3 Na¨elle va chercher du bois dans la forêt
E.4 Le roi Glagla
E.5 L’histoire des trois sourds
E.6 Maxence et le monstre sous le lit
F Stylisation du conte “Le petit chaperon rouge” contenu dans le corpus de parole GV-LE

projet fin d'etude

Télécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *