Mémoire Online: Identiﬁcation nommée du locuteur, exploitation conjointe du signal sonore et de sa transcription

Sommaire: Identiﬁcation nommée du locuteur, exploitation conjointe du signal sonore et de sa transcription

1 Introduction
2 Traitement automatique de la parole
2.1 Différents types de systèmes
2.1.1 Commandes vocales
2.1.2 Systèmes de compréhension
2.1.3 Systèmes de dictée automatique
2.1.4 Systèmes de transcription grand vocabulaire
2.2 Transcription automatique de la parole
2.2.1 Principes généraux
2.2.2 Modèles acoustiques
2.2.3 Modèles de langage
2.2.4 Évaluation
2.3 Reconnaissance automatique du locuteur
2.3.1 Caractéristiques et variabilité
2.3.2 Applications
2.3.3 Identiﬁcation automatique du locuteur
2.3.4 Vériﬁcation automatique du locuteur
2.3.5 Suivi de locuteur
2.3.6 Segmentation et classiﬁcation en locuteur
2.4 Transcription enrichie pour la reconnaissance en locuteur
2.4.1 Segmentation et classiﬁcation
2.4.2 Transcription et entités nommées
2.5 Détection des entités nommées
2.5.1 Catégorisation
2.5.2 Les différents types de systèmes
2.5.3 Reconnaissance et découverte des Entités Nommées
3 L’identiﬁcation nommée du locuteur
3.1 Applications
3.2 Métrique d’évaluation
3.3 Utilisation de connaissances a priori
3.4 Utilisation des informations de la transcription
3.4.1 Hypothèses
3.4.2 Attribution locale
3.4.3 Attribution globale
3.4.4 Processus d’attribution
3.5 Approche symbolique
3.5.1 Règles linguistiques
3.5.2 Expériences et métriques d’évaluation
3.5.3 Résultats
3.6 Approche statistique : N-grammes
3.6.1 Attribution locale : utilisation de N-grammes
3.6.2 Attribution globale
3.6.3 Corpus
3.6.4 Analyse des données
3.6.5 Résultats
3.7 Approche statistique : arbre de classiﬁcation sémantique
3.7.1 Détection des entités nommées
3.7.2 Attributions
3.7.3 Expériences et résultats
3.8 Bilan
4 Milesin : Un système d’INL par analyse conjointe du signal et de sa transcription
4.1 Détection des entités nommées
4.1.1 La campagne d’évaluation ESTER 2
4.1.2 Le système LIA_NE
4.2 Attributions locales : arbre de classiﬁcation sémantique
4.2.1 Arbre de classiﬁcation sémantique
4.2.2 Apprentissage
4.2.3 Étiquetage et attributions locales
4.3 Attribution globale : processus de décision et fonctions de croyance pour l’INL
4.3.1 Formalisme et notations
4.3.2 Fonctions de croyance
4.3.3 Déﬁnition des masses de croyance
4.3.4 Combinaison par tour de parole et par locuteur
4.3.5 Processus de décision
4.3.6 Prise en compte du genre
4.4 Évaluation du système proposé
4.4.1 Description des corpus
4.4.2 Métriques utilisées
4.4.3 Système de transcription automatique du LIUM
4.4.4 Résultats
4.5 Bilan
5 Milesin : avancées et limites
5.1 Analyse préliminaire
5.1.1 Nemesis, un outil prévu pour le TAL
5.1.2 Analyse des erreurs
5.2 Processus de décision : variantes
5.2.1 Utilisation d’un maximum
5.2.2 Normalisation des scores
5.2.3 Expériences et résultats
5.2.4 Critiques et théorie des fonctions de croyance
5.3 Liste de locuteurs et applications
5.3.1 Contexte
5.3.2 Expérimentations
5.3.3 Perspectives
5.4 Transcriptions automatiques
5.4.1 De la pertinence des métriques utilisées
5.4.2 Inﬂuence de la qualité des transcriptions enrichies
5.5 Bilan
6 Conclusion et perspectives
Liste des illustrations
Liste des tableaux
Bibliographie

Extrait du mémoire identiﬁcation nommée du locuteur, exploitation conjointe du signal sonore et de sa transcription

Chapitre 1: Introduction
Depuis plus de 15 ans nous assistons à l’explosion du nombre de documents numériques accessibles au public à travers des médias multiples comme les réseaux téléphoniques, le câble, le satellite et surtout le Web. Ces documents prennent une place croissante dans la vie quotidienne et sont devenus une ressource essentielle.
Les documents disponibles sur le Web sont passés en quelques années de la simple page HTML ne contenant que du texte, à des pages regroupant divers médias : l’image, le son ou encore la vidéo. Youtube ou les podcast qui permettent d’écouter les émissions radios en différé sont des exemples de la diversité croissante des documents mis à notre disposition. Sans technique de classiﬁcation efﬁcace et sans moyen d’accès intuitif, l’information recherchée reste enfouie dans une masse d’information parasite. Seuls des moyens automatiques ou faiblement supervisés d’indexation et de recherche permettent de satisfaire nos besoins.
Dans ces travaux, nous nous intéressons à l’extraction automatique d’infor-mations contenues dans des documents audio, et plus particulièrement aux informations relatives aux locuteurs. Nous cherchons à nommer chaque locuteur d’un document par son prénom et son nom. Ces travaux sont appelés identiﬁcation nommée du locuteur (INL). L’INL doit permettre de répondre à cette question : qui a parlé et quand ?
Certains systèmes d’INL exploitent des connaissances a priori sur les locuteurs à identiﬁer : leur utilisation sur de grandes collections de données est difﬁcile.
En effet, obtenir un grand nombre d’informations a priori sur les locuteurs (comme des enregistrements de leur voix) est coûteux en temps. De plus, ces informations peuvent ne pas être disponibles. Un autre type d’approche, ne nécessitant aucune connaissance a priori sur les documents à traiter, a été mis en œuvre pour la première fois en 2005 dans (Canseco-Rodriguez et al., 2005). Cette approche repose sur l’exploitation de la transcription enrichie d’un document audio pour réaliser l’identiﬁcation nommée des locuteurs.

………..
Si le lien ne fonctionne pas correctement, veuillez nous contacter (mentionner le lien dans votre message)
Mémoire Online: Identiﬁcation nommée du locuteur, exploitation conjointe du signal sonore et de sa transcription (2.76 MB) (Cours PDF)