La collection INEX 2005
Pour évaluer les performances des système de composition des frames utilisant les DBN, un ensemble de données de test est préparé comme indiqué en 6.4. Les 3005 tours de parole utilisateur annotés en frames et FE par un expert forment l’ensem- ble de référence REF. Le système d’annotation en deux étapes à base de règles (décrit en CHAP.6) est utilisé pour produire une annotation en frames et FE sur le corpus ME- La qualité de cette annotation a été évaluée sur les données de test : l’obtention d’une F-mesure toujours supérieure à 0,9 pour l’identification des frames, FE et liens confirme la fiabilité du système et la consistance des données d’apprentissage.Les données SLU et ASR+SLU comportent des erreurs de transcription et d’annota- tion conceptuelle liées à l’imperfection des systèmes qui les produisent. Les taux d’er- reurs observés sur les 3005 tours de parole de test sont rappelés dans le tableau 9.1. Toutes les expériences présentées ici ont été réalisées en utilisant GMTK (Bilmes et Zweig, 2002), outil logiciel de calcul et de manipulation des modèles graphiques et SRILM (Stolcke, 2002), outil logiciel pour les modèles de langage. Les résultats des systèmes DBN sont donnés en termes de précision, rappel et F- mesure. La précision est le nombre de frames, FE ou liens corrects proposés par le sys- tème divisé par le nombre total de frame, FE ou liens proposés par le système. Le rappel est le nombre de frames, FE ou liens corrects proposés par le système divisé par le nom- bre total de frames, FE ou liens contenus dans l’annotation de référence. La F-mesure est la moyenne harmonique standard de la précision et du rappel.
Les systèmes apparaissent robustes à la dégradation des données d’entrées : une dégradation de plus de 20% sur les variables observées (mots et concepts) entraine une baisse des performances obtenues sur la génération des fragments sémantiques de moins de 10%. On remarque également que sur les données SLU, le taux d’erreur sur les fragments est voisin du taux d’erreurs concepts observé. Le taux d’erreur concepts est majoré de 13,4% sur les données ASR+SLU (taux d’erreur mots de 27%) alors que les résultats sur les fragments ne sont dégradés que de 6%. Les résultats des tableaux 9.3, 9.4 et 9.5 montrent que les performances du modèle compact sont supérieures à celles des deux autres modèles. Le domaine de connais- sance MEDIA est défini de telle façon qu’un FE ne peut prendre qu’un nombre très lim- ité de frames pour valeur. Ainsi, dans ce contexte, l’utilisation par le modèle compacte de liens déterministes entre frame et FE favorise la production de fragments séman- tiques consistants et disposant de statistiques fiables. La simplicité du modèle compact est également un atout dans le cadre de l’intégration de ce modèle à un système de dialogue complet.
Les performances du modèle factorisé et du modèle à deux niveaux permettent de considérer que ces deux modèles sont également adaptés à la tâche de décodage de fragments sémantiques. Nous espérons pouvoir les évaluer rapidement sur la base de connaissances LUNA évoquée en 5.5. Son dimensionnement induit potentiellement un niveau d’incertitude plus élevé dans le choix des frames valeurs de FE. La liberté de combinaison des frames et FE dans les fragments offerte par le modèle factorisé et le Les résultats obtenus par les systèmes évalués confirment que les modèles à base de DBN peuvent être utilisés pour générer des sous-structures sémantiques hiérarchiques consistantes. De plus, ces modèles ayant la capacité de produire des hypothèses avec leurs scores de confiance, ils peuvent être utilisés dans des contextes où les hypothèses sont multiples (réseaux de confusion, n-meilleures hypothèses) ou encore dans des pro- tocoles d’évaluation en classant les hypothèses proposées par d’autres systèmes.