Réseaux de confusion
En reconnaissance de la parole, l’approche standard (Bahl et al., 1983) utilisée pourle calcul de la meilleure solution est basée sur le critère de maximum a posteriori (MAP – maximum a posteriori probability). Ainsi, un SRAP produit comme résultat une séquence d’hypothèses de mots correspondant au chemin ayant la meilleure probabilité a poste- riori étant donné les modèles acoustique et de langage. La théorie de Bayes (Duda et Hart, 1973) dit que la maximisation de la probabilité a posteriori de l’énoncé minimise le taux d’erreur phrase (SER – Sentence Error Rate, la probabilité d’avoir au moins une er- reur dans la phrase). Or, la métrique employée généralement dans les évaluations d’un SRAP est le taux d’erreur mot (WER). On peut supposer de manière empirique que le SER et le WER sont des métriques corrélées, et donc la minimisation du SER devrait conduire à la minimisation du WER. Des expériences (Stolcke et al., 1997) ont montré que la minimisation du SER ne garantit pas une minimisation du WER. Intuitivement on peut néanmoins envisager qu’en maximisant la probabilité a posteriori des mots, au lieu de la probabilité a posteriori des phrases, on devrait minimiser le WER.La solution proposée dans (Mangu et al., 2000) est une approche de minimisation du WER basée sur l’utilisation des graphes de mots. Cette approche définit une nouvelle distance d’édition entre des hypothèses multiples basée sur la création d’un nouvel ali- gnement pour toutes les hypothèses du graphe de mots, appelé réseau de confusion. Même si cette approche a tendance à surestimer le taux d’erreur mot dans certains cas, il a été montré (Mangu et al., 2000) que c’est une bonne approximation de WER stan- dard.Dans la section 5.1 nous présentons deux approches de minimisation du WER basées sur une liste de N best et sur des graphes de mots. Les différents concepts et notions théoriques utilisés par l’approche proposée dans (Mangu et al., 2000) sont présentés dans la section 5.2. Les différents algorithmes de génération des réseaux de confusion sont présentés dans la section 5.3. La dernière section 5.4 présente une comparaison de deux algorithmes de génération que nous avons implémentés. Une discussion des per- formances ainsi que du choix de l’algorithme utilisé dans la suite des travaux est aussi proposée dans cette section.
Pour obtenir le WER d’une hypothèse de reconnaissance W on doit calculer la dis- tance d’édition entre W et une séquence de mots de référence R. Ceci est possible seule- ment si on connaît la séquence de mots de référence R. Si on ne connaît pas cette sé- quence de référence, ce qui est le cas en pratique pour un SRAP, on ne peut qu’estimer le WER sur un espace d’hypothèses. Pour cela on doit faire des hypothèses sur la sé- quence de mots de référence en choisissant, sur un espace donné, une séquence de mots comme étant correcte étant donné une probabilité associée. Si on considère H comme l’espace des hypothèsesR, réalisé à l’aide de la programmation dynamique. Le temps de calcul du WER pour chaque paire d’hypothèses est donc pro- portionnel au carré de la longueur des hypothèses. La deuxième étape consiste à choisir l’hypothèse W avec la plus petite somme. Le volume de calcul élevé soulève la question de la faisabilité de la minimisation du WER dans un contexte de reconnaissance de la parole continue à très grand vocabulaire (LVCSR – Large Vocabulary Continuous Speech Recognition).alignements pour le calcul de la dis- tance d’édition ce qui peut devenir coûteux pour une liste de plus de 1000 hypothèses. De plus, l’algorithme choisi systématiquement une hypothèse se trouvant dans les 10 meilleures de la liste N best initiale (observation empirique dans (Stolcke et al., 1997)). Pour réduire la complexité de l’algorithme, la minimisation du WER peut être réalisée sur une liste de K hypothèses plus petite (K N et une complexité de O(KN)). Les tests effectués (Stolcke et al., 1997) sur des corpus de type Switchboard et Spanish Call- Home montrent des performances faibles en termes de WER. Des tests sur un corpus de type North American Business (NAB) Newstask, avec un WER compris entre 10% et 30%, montrent que l’algorithme proposé choisit invariablement l’hypothèse ayant la meilleure probabilité a posteriori. Ceci s’explique par le fait que, dans ce type de corpus, une valeur petite du WER signifie que le nombre d’erreurs de mots dans une phrase est très petit (une ou deux erreurs). Ainsi, dans beaucoup de cas, une erreur mot corres- pond à une erreur phrase et inversement.Il est donc possible de construire un algorithme de minimisation du WER basé sur des listes de N best et ayant une complexité de calcul relativement réduite. Il est aussi plus judicieux d’utiliser un algorithme de ce type sur des corpus ayant un WER élevé pour maximiser ses performances.