Optimisation de la construction des réseaux de confusion

Optimisation de la construction des réseaux de confusion

Comme nous l’avons décrit dans le chapitre 3, dans un système de dialogue en lan- gage naturel, le processus de reconnaissance vocale ainsi que l’analyse en concepts de l’hypothèse de reconnaissance sont transparents pour l’utilisateur. Les éventuelles er- reurs à ces niveaux ne sont pas perçues directement par celui-ci. L’interprétation est ce qui guide la réponse du gestionnaire de dialogue et ce sont les erreurs au niveau inter- prétation qui reﬂètent le mieux les performances du système perçues par l’utilisateur. Dans sa formulation théorique, l’algorithme de génération des CNs correspond à un cri- tère de minimisation du taux d’erreur mot, alors que dans une application de dialogue on cherche à minimiser l’erreur au niveau interprétation. Nous proposons d’adapter l’algorithme du « pivot » dans le but de construire des CNs qui optimisent plus généra- lement les performances du processus complet d’interprétation, et ceci aﬁn d’améliorer les performances du système perçues par l’utilisateur. Ces modiﬁcations introduisent un traitement différencié des mots du graphe et privilégient le traitement des mots por- teurs de sens pour l’interprétation, favorisant ainsi une minimisation du taux d’erreur interprétation.Le chapitre est organisé en six sections. Une analyse du comportement de l’algorithme du « pivot » ainsi que des résultats obtenus sur le corpus Test_II sont présenté au 6.1. Dans la section 6.2 nous proposons une nouvelle approche heuristique pour le calcul des relations d’ordre entre les transitions. Les modiﬁcations apportées à l’algorithme du « pivot » sont présentées au 6.3. Dans la section 6.4 nous présentons l’inﬂuence des mesures de conﬁance sur les performances des CNs. Une étape d’élagage des classes ﬁ- nales des CNs est décrite au 6.5. Dans la dernière section 6.6 nous présentons une étape de post-traitement des CNs qui consiste en un algorithme de parsing basé sur les règles d’allumage des concepts.

Aﬁn de pouvoir proposer des modiﬁcations de l’algorithme du « pivot » nous de- vons tout d’abord analyser le comportement de l’algorithme et la structure des CNs sur un corpus de données réelles. Pour réaliser cette analyse et pour présenter les perfor- mances des différentes modiﬁcations que nous détaillerons dans les sections suivantes, nous utilisons le corpus de test Test_II, composé de 6501 énoncés réels collectés à par- tir de l’application de dialogue en langage naturel 3000 (voir 4.3 pour une description plus détaillée). La Methode 3 Le tableau 6.1 détaille les performances en terme de WER oracle de l’algorithme du « pivot ». Les quatre dernières colones donnent le détail des erreurs pour les deux mé- triques (C – Mots corrects, I – Insertions, S – Substitutions, O – Omissions). On observe une nette amélioration des performances avec les CNs qui donnent un WER oracle trois fois inférieur à celui obtenu sur les graphes de mots. Ces performances sont dues au fait que la structure des CNs permet la création de nouveaux chemins qui n’existent pas dans le graphe. Le nombre très réduit d’insertions et de substitutions pour la solution oracle des CNs est une conséquence de la structure des réseaux de confusion. Lorsqu’on recherche la séquence la plus proche de la référence, les transitions portant l’omission, présentes dans un grand nombre de classes, permettent la construction d’un chemin entre deux mots de la solution oracle se trouvant dans deux classes non-adjacentes sans passer par d’autres mots. En effet, à la différence d’un graphe où un chemin entre deux mots non-adjacents passe obligatoirement par d’autres mots, dans un CN ce même che- min peut ne pas passer par d’autres mots si les classes parcourues contiennent toutes une transition portant l’omission. Le tableau 6.2 donne le détail du WER pour la 1-best de la première passe de reconnaissance et la consensus hypothesis. Nous avons divisé le corpus en deux catégories : les énoncés non-parole (ne contenant que du bruit) et les énonces parole. Le WER sur chaque catégorie est calculé comme une contribution sur le WER de l’ensemble du corpus. Ainsi, le WER total de 42% = WER énoncés non-parole 7% + WER énoncés parole 35%.On observe que, sur l’ensemble du corpus de test, les performances de la consensus hy- pothesis sont inférieures par rapport à la 1-best avec une augmentation sur les trois types d’erreurs. On retrouve la même tendance sur chacune des deux catégories.Les énoncés non-parole représentent 20% du total du corpus. 16% des erreurs sur la 1-best sont produites par les énoncés de cette catégorie, alors que ce pourcentage est de 22% pour la consensus hypothesis. En effet, 68% des énoncés non-parole sont correcte- ment détectés par la 1-best alors que ce chiffre est de seulement 40% pour la consensus hypothesis. Ceci explique l’augmentation du nombre d’insertions et de substitutions sur cette catégorie pour la consensus hypothesis.