Protocole d’évaluation des audios
Corpora audio
Le contenu du corpus de test définit clairement le cadre expérimental, par la proportion relative des classes et leur disposition dans les fichiers, ce que l’expérimentateur va considérer comme une synthèse des difficultés afférentes au problème étudié. Ainsi par exemple, un corpus dans lequel une classe est sous-représentée favorisera implicitement les autres classes. Mais la proportion adéquate des classes dépend largement de l’application visée. De plus, la constitution d’un bon corpus de test, dont la pertinence est reconnue par la communauté, permet à celle-ci de travailler sur une base d’évaluation commune et ainsi de comparer objectivement les résultats des diverses contributions. Une telle démarche s’accompagne généralement d’un corpus d’apprentissage commun afin de restreindre la variabilité aux algorithmes de classification. Pourtant, la plupart des corpora d’évaluation de la littérature ne sont pas rendus publics, principalement en raison de la protection des droits d’auteurs. Cependant, il existe heureusement plusieurs corpora dont le contenu est partagé par leurs auteurs, et que nous exploiterons dans cette étude. Le meilleur exemple de corpus public reste cependant celui qui accompagne une campagne d’évaluation nationale ou internationale. En effet, devant le besoin d’un cadre d’évaluation comparative exprimé par la communauté en indexation audio, ces dernières années ont vu fleurir un bon nombre de ces campagnes d’évaluation. Leur but est non seulement de fournir aux participants un corpus dont le soin apporté à la constitution et à l’annotation est hors de portée des laboratoires de recherche, mais également d’imposer un protocole d’évaluation commun qui rend possible une comparaison entre les contributions, dont les modalités sont reconnues.
Campagne ESTER
La campagne d’évaluation ESTER 1 (Évaluation des Systèmes de Transcription enrichie d’Émissions Radiophoniques) est née en 2003 de la réunion d’intérêts communs à plusieurs laboratoires de recherche dans le domaine de la transcription automatique de la parole, et a été proposée par l’AFCP (Association Francophone de la Communication Parlée). La campagne définit un cadre commun pour les différents laboratoires en concurrence, dont les systèmes sont évalués par un acteur extérieur, représenté par le Centre d’Expertise Parisien de la DGA (Délégation Générale pour l’Armement). La majorité des tâches définies concerne la transcription et l’indexation de la parole, et couvre toute la chaîne qui permet, à partir du signal audio, et en passant par la reconnaissance de locuteur et la transcription de la parole, d’obtenir une base textuelle indexée, axée sur la catégorisation automatique en entités nommées. La première de ces tâches, nommée SES (Segmentation en Événements Sonores) concerne en toute logique la localisation des segments de parole et de musique, qui permet d’appliquer les autres traitements sur les segments identifiés. La première édition de la campagne ESTER s’est déroulée entre 2003 et 2005, depuis la publication du protocole d’évaluation et du corpus d’apprentissage [93] jusqu’à la publication des résultats comparatifs des participants [83]. Le corpus contient un certain nombre d’heures d’enregistrements d’informations radiophoniques annotées ainsi que des transcriptions textuelles de journaux. Nous n’exploitons que les enregistrements annotés dans le cadre de cette étude. Les documents sonores proviennent des radios suivantes : France Inter, France Info, RFI (Radio France International), RTM (Radio Télévision Marocaine), dont les proportions dans les corpora d’apprentissage et de test sont résumées dans le tableau 10.1. Bien que les annotations fournies avec le corpus soient très minutieuses, l’effort a surtout été concentré sur la transcription de la parole et la délimitation des segments de classes acoustiques présente quelques erreurs. Nous avons donc reparcouru l’intégralité du corpus d’apprentissage, à l’aide de l’outil d’annotation Transcriber 2 , et corrigé ces erreurs, ce qui nous a permis en outre d’affiner l’annotation pour distinguer les segments de chant et de parole sur fond bruité (que nous désignons par ParoleBr). Le tableau 10.2 synthétise les durées cumulées de chacune des classes pour les différents sous-ensembles du corpus ESTER. Les pourcentages sous les durées précisent la proportion de chaque classe dans le sous-ensemble. Cependant, bien que nous ayons annoté à titre personnel les sous-classes en question dans le corpus de test, aucune modification n’a été apportée à ce dernier lors de l’évaluation, afin de conserver la pertinence de la comparaison aux autres participants. Les 12 minutes manquantes au total par rapport aux 90 heures de données audio sont dues au fait que certains segments ne sont pas pris en compte (silence ou classe non définie). On reprécise le sens des classes ici mises en jeu : • Chant : désigne la présence de voix chantée, a priori en présence d’un fond musical instrumental. • Mix : désigne la présence de voix sur fond musical. • Musique : désigne la présence de musique sans voix chantée. • ParoleBr : désigne la présence de voix parlée sur fond de bruit (par exemple enregistrements en extérieur). • Parole : désigne la présence de voix parlée pure.
La campagne d’évaluation ESTER 2 a regroupé la plupart des acteurs de la première édition, en particulier les institutions organisatrices, auxquelles se sont greffés plusieurs acteurs industriels. Elle a débuté en janvier 2008 par la mise à disposition d’un ensemble d’apprentissage et d’un autre de développement, pour l’estimation des résultats. Après la diffusion de l’ensemble de test et la campagne de test courant novembre 2008, la campagne s’est terminée en avril 2009 sur un atelier de clôture et une publication des résultats des participants [82]. Le tableau 10.3 indique la répartition du corpus audio parmi les médias et les sous-ensembles qui le constituent. Un nouveau média a été introduit dans le corpus ESTER 2, la radio Africa 1, qui se caractérise par une prise de son plus bruitée que les autres radios, et qui vient donc compliquer la tâche de classification audio. TVME est le nouveau nom de la Radio Télévision Marocaine (RTM), qui était présente dans le corpus ESTER. L’essentiel du corpus provient de la radio RFI, avec environ 70 heures d’enregistrements.