Évaluations
Corpora audio
Le contenu du corpus de test définit clairement le cadre expérimental, par la proportion relative des classes et leur disposition dans les fichiers, ce que l’expérimentateur va considérer comme une synthèse des difficultés afférentes au problème étudié. Ainsi par exemple, un corpus dans lequel une classe est sous-représentée favorisera implicitement les autres classes. Mais la proportion adéquate des classes dépend largement de l’application visée. De plus, la constitution d’un bon corpus de test, dont la pertinence est reconnue par la communauté, permet à celle-ci de travailler sur une base d’évaluation commune et ainsi de comparer objectivement les résultats des diverses contributions.
Une telle démarche s’accompagne généralement d’un corpus d’apprentissage commun afin de restreindre la variabilité aux algorithmes de classification. Pourtant, la plupart des corpora d’évaluation de la littérature ne sont pas rendus publics, principalement en raison de la protection des droits d’auteurs. Cependant, il existe heureusement plusieurs corpora dont le contenu est partagé par leurs auteurs, et que nous exploiterons dans cette étude. Le meilleur exemple de corpus public reste cependant celui qui accompagne une campagne d’évaluation nationale ou internationale.
En effet, devant le besoin d’un cadre d’évaluation comparative exprimé par la communauté en indexation audio, ces dernières années ont vu fleurir un bon nombre de ces campagnes d’évaluation. Leur but est non seulement de fournir aux participants un corpus dont le soin apporté à la constitution et à l’annotation est hors de portée des laboratoires de recherche, mais également d’imposer un protocole d’évaluation commun qui rend possible une comparaison entre les contributions, dont les modalités sont reconnues.
Campagne ESTER
La campagne d’évaluation ESTER 1 (Évaluation des Systèmes de Transcription enrichie d’Émissions Radiophoniques) est née en 2003 de la réunion d’intérêts communs à plusieurs laboratoires de recherche dans le domaine de la transcription automatique de la parole, et a été proposée par l’AFCP (Association Francophone de la Communication Parlée). La campagne définit un cadre commun pour les différents laboratoires en concurrence, dont les systèmes sont évalués par un acteur extérieur, représenté par le Centre d’Expertise Parisien de la DGA (Délégation Générale pour l’Armement). La majorité des tâches définies concerne la transcription et l’indexation de la parole, et couvre toute la chaîne qui permet, à partir du signal audio, et en passant par la reconnaissance de locuteur et la transcription de la parole, d’obtenir une base textuelle indexée, axée sur la catégorisation automatique en entités nommées.
La première de ces tâches, nommée SES (Segmentation en Événements Sonores) concerne en toute logique la localisation des segments de parole et de musique, qui permet d’appliquer les autres traitements sur les segments identifiés. La première édition de la campagne ESTER s’est déroulée entre 2003 et 2005, depuis la publication du protocole d’évaluation et du corpus d’apprentissage [93] jusqu’à la publication des résultats comparatifs des participants [83]. Le corpus contient un certain nombre d’heures d’enregistrements d’informations radiophoniques annotées ainsi que des transcriptions textuelles de journaux. Nous n’exploitons que les enregistrements annotés dans le cadre de cette étude.
Les documents sonores proviennent des radios suivantes : France Inter, France Info, RFI (Radio France International), RTM (Radio Télévision Marocaine), dont les proportions dans les corpora d’apprentissage et de test sont résumées dans le tableau 10.1. Bien que les annotations fournies avec le corpus soient très minutieuses, l’effort a surtout été concentré sur la transcription de la parole et la délimitation des segments de classes acoustiques présente quelques erreurs. Nous avons donc reparcouru l’intégralité du corpus d’apprentissage, à l’aide de l’outil d’annotation Transcriber 2 , et corrigé ces erreurs, ce qui nous a permis en outre d’affiner l’annotation pour distinguer les segments de chant et de parole sur fond bruité (que nous 1. On pourra se rendre sur le site dédié de l’AFCP : http://www.afcp-parole.org/ester/index.html pour trouver plus d’informations sur la campagne et le corpus ESTER. Transcriber (http://trans.sourceforge.net) est un outil libre de segmentation, d’annotation et de transcription dont nous avons détourné l’usage habituel pour l’annotation de segments audio. Table 10.1 – Contenu des ensembles d’apprentissage et de test de la campagne ESTER. désignons par ParoleBr).
Le tableau 10.2 synthétise les durées cumulées de chacune des classes pour les différents sous-ensembles du corpus ESTER. Les pourcentages sous les durées précisent la proportion de chaque classe dans le sous-ensemble. Cependant, bien que nous ayons annoté à titre personnel les sous-classes en question dans le corpus de test, aucune modification n’a été apportée à ce dernier lors de l’évaluation, afin de conserver la pertinence de la comparaison aux autres participants. Les 12 minutes manquantes au total par rapport aux 90 heures de données audio sont dues au fait que certains segments ne sont pas pris en compte (silence ou classe non définie). On reprécise le sens des classes ici mises en jeu : • Chant : désigne la présence de voix chantée, a priori en présence d’un fond musical instrumental. • Mix : désigne la présence de voix sur fond musical. • Musique : désigne la présence de musique sans voix chantée. • ParoleBr : désigne la présence de voix parlée sur fond de bruit (par exemple enregistrements en extérieur). • Parole : désigne la présence de voix parlée pure.
Ensemble Chant Mix Musique ParoleBr Parole Total Apprentissage 0h38 8h02 1h50 4h48 64h33 79h53 0.8% 10.1% 2.3% 6.0% 80.8% Test 0h02 1h14 0h15 0h31 7h51 9h54 0.4% 12.5% 2.6% 5.2% 79.3% Total 0h41 9h16 2h05 5h19 72h25 89h48 Table 10.2 – Répartition des classes dans les sous-ensembles du corpus ESTER Le constat le plus frappant est la sur-représentation de la classe de parole dans le corpus, qui est également due au fait que la transcription de parole est la tâche prédominante dans la campagne. Le corpus est en effet essentiellement constitué de bulletins d’informations radiophoniques. La forte proportion de parole sur musique par rapport à la musique provient des habillages musicaux qui accompagnent couramment la voix du présentateur, notamment durant la présentation des titres. On notera enfin la proportion non négligeable de parole bruitée dans le corpus, qui n’est pas prise en compte dans la campagne ESTER, mais qui nous permettra d’apporter une analyse plus fine des résultats.
Le corpus de la campagne ESTER nous sert de point de comparaison pour l’évaluation de nos contributions. Toutefois, il convient de rappeler que, celle-ci ayant été close avant le début de cette thèse, la portée de cette comparaison est d’un impact limité puisque nous avons nécessairement tiré le bénéfice des enseignements qu’apportent les résultats des autres participants, ainsi que des annotations disponibles de l’ensemble de test, qui étaient inconnues dans les conditions réelles de la campagne. Nous avons cependant eu la chance de pouvoir participer à la seconde édition de cette campagne, que nous décrivons ci-dessous.
Campagne ESTER 2
La campagne d’évaluation ESTER 2 a regroupé la plupart des acteurs de la première édition, en particulier les institutions organisatrices, auxquelles se sont greffés plusieurs acteurs industriels. Elle a débuté en janvier 2008 par la mise à disposition d’un ensemble d’apprentissage et d’un autre de développement, pour l’estimation des résultats. Après la diffusion de l’ensemble de test et la campagne de test courant novembre 2008, la campagne s’est terminée en avril 2009 sur un atelier de clôture et une publication des résultats des participants..
Le tableau 10.3 indique la répartition du corpus audio parmi les médias et les sous-ensembles qui le constituent. Un nouveau média a été introduit dans le corpus ESTER 2, la radio Africa 1, qui se caractérise par une prise de son plus bruitée que les autres radios, et qui vient donc compliquer la tâche de classification audio. TVME est le nouveau nom de la Radio Télévision Marocaine (RTM), qui était présente dans le corpus ESTER. L’essentiel du corpus provient de la radio RFI, avec environ 70 heures d’enregistrements. Station Apprentissage Développement Test France Inter 26h40 2h40 3h40 RFI 68h00 1h20 1h10 Africa 1 4h50 2h15 1h30 TVME (ex RTM) – 1h00 1h00 Total 99h30 7h15 7h20 Table 10.3 – Contenu des sous-ensembles de la campagne ESTER 2. Cette seconde édition a vu l’essor des recherches sur le sujet de la reconnaissance d’entités nommées.
Toutefois, un soin supplémentaire a été apporté à l’annotation de la tâche SES, et le contenu du corpus s’est diversifié pour mieux prendre en considération les problèmes de la détection de la musique et des enregistrements bruités. On constate ainsi dans le tableau 10.4 que les parts de musique et de parole sur musique (mix) sont rehaussées en terme de durée totale (4 heures de plus de mix et 2 heures de plus de musique). Néanmoins la parole demeurent forteme majoritaire dans le corpus. Ensemble Mix Musique Parole Total Apprentissage 12h42 3h32 82h36 98h51 12.8% 3.6% 83.6% Développement 0h22 0h08 5h34 6h04 6.2% 2.2% 91.6% Test 0h22 0h26 6h12 7h01 5.3% 6.2% 88.5% Total 13h27 4h06 94h23 111h57 Table 10.4 – Répartition des classes dans les sous-ensembles du corpus ESTER.