Protocole d’évaluation
Tour d’horizon
Plusieurs campagnes d’évaluation sont lancées dans le but d’encourager la recherche dans le domaine de l’indexation audio-visuelle. Ces campagnes fournissent des bases de données ainsi que des protocoles d’évaluation afin de comparer les performances des différents systèmes. Dans cette section, nous présentons quelques protocoles d’évaluation des systèmes d’indexation proposés lors de campagnes d’évaluations.
Mesure de pureté
La mesure de pureté a été introduite dans les systèmes d’indexation en locuteur dans [Solomonoff et al., 1998]. Un système d’indexation en locuteur construit un index de personnes détectées et regroupés en Clusters. Dans un Cluster, la pureté traduit le taux d’éléments étrangers au Cluster. Deux mesures de pureté peuvent être calculées : puretés du locuteur PLoc et du groupe PCl : PCl = 1 N0 � N i=1 pini avec pi = � S j=1 n2 ij n2 i (3.1) 57 Protocole d’évaluation 3.1 Tour d’horizon 58 PLoc = 1 N0 � S j=1 pjnj avec pj = � N i=1 n2 ij n2 j (3.2) o`u : – N : nombre de classes du document audio. – S : nombre de locuteurs du document audio. – N0 : nombre de trames du document audio. – ni : nombre de trames de la classe i. – nj : nombre de trames du locuteur j. – nij : nombre de trames dans la classe i prononcées par le locuteur j. PLoc traduit le fait qu’un locuteur soit dispersé sur plusieurs groupe (Clusters), tandis que PCl traduit le fait qu’un Cluster contienne des données provenant de plusieurs locuteurs. Par exemple, si PLoc = 1 et PCl = 0.5, cela signifie que toutes les données pour un même locuteur sont regroupées dans un même Cluster, mais que dans chaque Cluster, il y a en moyenne 2 locuteurs. Ces mesures de pureté sont principalement utilisées en indexation en locuteurs. Elles peuvent également être utilisées dans d’autres systèmes d’indexation basés sur un processus de détection et regroupement (notamment en indexation de visages parlants).
Protocole d’évaluation TRECVID
La campagne d’évaluation TRECVID (TREC Video Retrieval Evaluation) lancée depuis 2001 par l’organisme NIST a pour objectif d’encourager la recherche d’information dans des contenus audio-visuels. Les tˆaches évaluées dans cette campagne sont des tˆaches de détection de concept prédéfinis (personne, voiture, animal, etc). Le protocole d’évaluation de la campagne consiste à détecter automatiquement les concepts, puis à déterminer la pertinence de la réponse du système en calculant les mesures Précision et Rappel. Dans la tˆache de détection de personnes dans des séquences vidéos, un plan considéré pertinent est un plan dans lequel une personne est détectée et correctement associée à la bonne identité. Les mesures de Précision et Rappel sont calculées, par rapport aux plans, pour chaque personne de la manière Chapitre 3 : Protocole d’évaluation 59 suivante : P recision(Pi) = NCorrect(Pi) N Det(Pi) Rappel(Pi) = NCorrect(Pi) N Ref (Pi) (3.3) – NCorrect(Pi) : nombre de plans o`u la personne Pi est correctement détectée. – N Ref (Pi) : nombre de plans o`u la personne Pi est annotée en référence. – N Det(Pi) : nombre de plans o`u la personne Pi est détectée automatiquement.
Protocole d’évaluation ESTER
La campagne d’évaluation ESTER [Galliano et al., 2009] a pour objectif d’évaluer les systèmes d’analyse et d’indexation de documents audio en fran¸cais. Les tˆaches sont organisées autour de l’évaluation de la segmentation et regroupement de locuteurs (S), la transcription de la parole (T), et l’extraction d’information (E). Dans notre cas, nous nous intéressons au protocole d’évaluation de l’indexation des personnes (tˆache S). L’outil proposé par ESTER pour l’évaluation des performances des systèmes d’indexation en locuteurs est SpkrSegEval-v23.pl. Cet outil permet de trouver la meilleure correspondance entre l’ensemble des étiquettes de référence et étiquettes obtenues par une segmentation et regroupement automatique. A partir de ` ces associations, plusieurs métriques sont calculées : – Reference Time : correspond à la durée totale de personnes annotées manuellement. – Cluster Time : correspond à la durée totale de personnes détectées par le système d’indexation automatique. – Correct Time : correspond à la durée totale des segments détectés automatiquement et correctement associés à la bonne identité. – Error Time : correspond aux erreurs sur les identités (arbitraires) des locuteurs. – False Alarm Time : correspond à la durée totale de personnes automatiquement détectées mais non référencées. – Missed Time : correspond à la durée totale de personnes référencées mais non détectées automatiquement. La figure 3.1 schématise les différentes métriques pour l’indexation. A partir de ` ces métriques, plusieurs taux d’erreurs peuvent être calculés. Ces erreurs diffèrent selon qu’on se positionne du coté de la référence ou de la réponse automatique. Se positionner cˆoté référence signifie que les métriques calculées par l’outil sont comparées au temps total de référence. Dans ce cas, on privilégie la capacité du système à retrouver le plus de possible de segments référencés. Dans le cas ou l’on se positionne cˆoté réponse du système, les métriques sont comparés au temps total du Cluster. Les taux calculés montrent la composition de la réponse en terme bonnes et mauvaises réponse. Souvent, les évaluations se positionnent cˆoté référence par le taux d’erreur Diarization Error Rate qui est calculé de la manière suivante : DiarizationErrorRate = ErrorTime + FalseAlarmTime + MissedTime ReferenceTime (3.4) Afin d’évaluer la réponse du système, il est intéressant de mesurer le taux de perte (calculé par rapport au temps de référence) et la composition de la réponse automatique (calculé par rapport au temps de réponse automatique). Le taux de perte est calculé de la manière suivante : MissedDurationRate(MDR) = MissedTime ReferenceTime (3.5) Pour la composition de la réponse automatique, il y a 3 possibilités de réponse du système automatique : segments bien détectés et correctement identifiés (Correct Duration Rate), segments détectés et faussement identifiés (Error Duration Rate) Chapitre 3 : Protocole d’évaluation 61 ou segments qui ne sont pas dans la référence (False Alarm Rate, cas de personnes détectées automatiquement alors qu’il y en a pas). La composition de la réponse automatique est calculée de la manière suivante : CorrectDurationRate(CDR) = CorrectTime ClusterTime ErrorDurationRate(EDR) = ErrorTime ClusterTime FalseAlarmRate(FAR) = FalseAlarmTime ClusterTime (3.6) En comparaison avec les évaluations TRECVID, le Correct Duration Rate (CDR) correspond à la mesure de précision définie précédemment