Validation du regroupement d’occurrences vidéo de personnes
Présentation des expérimentations
Après avoir présenté de façon théorique nos propositions pour le regroupement de personnes, nous allons les valider de façon expérimentale. Pour cela, nous allons utiliser le corpus de vidéos issu du défi ANR REPERE (présenté dans le contexte de la thèse), proposant de plus de 100 vidéos d’émissions audiovisuelles, dans lesquelles les personnes ont été annotées de façon manuelle. Dans un premier temps, nous allons vérifier que les résultats de mise en correspondance entre histogrammes spatio-temporels que nous obtenons ont du sens. Un test statistique confirme qu’il y a une différence significative dans la similarité entre des histogrammes spatio-temporels d’occurrences vidéo de même personne et d’histogrammes spatio-temporels de personnes différentes. Cela montre que les résultats ne sont pas obtenus de façon aléatoire et que notre approche permet effectivement de discriminer les occurrences vidéo de personnes. Nous allons ensuite regarder l’évolution de la précision de notre système en fonction du paramétrage en cherchant à identifier l’espace de couleur le plus approprié, le nombre de partitions optimal, ainsi que la stratégie de construction la plus adaptée. Une fois ces paramètres déterminés, nous identifions ces mêmes paramètres pour différentes approches de l’état de l’art comme les histogrammes de couleurs, les spatiogrammes et les histogrammes de LBP. Nous comparerons les résultats obtenus, pour une tâche de recherche, dans les différents cas avec ceux obtenus avec notre approche. Les mesures de similarités données par les différentes approches seront ensuite utilisées pour effectuer le regroupement d’occurrences vidéo de personnes. Les différents groupes obtenus seront évalués selon de nombreux critères afin de déterminer quelle approche convient le mieux pour selon l’application considérée.
Présentation des données de test
Le corpus de données fourni pour le défi ANR REPERE consiste en plusieurs heures d’émissions télévisées annotées partiellement. Ces données viennent de deux chaînes télévisées françaises : LCP et BFMTV. Plusieurs émissions de ces chaînes sont présentes dans le corpus, elles ont des longueurs variables et la façon dont chaque émission est filmée varie aussi. Certaines contiennent des plans filmés en extérieur. Les données sont encodées au format vidéo MPEG avec une taille, à l’affichage (Display Aspect Ratio), de 720×576 pixels. En revanche, dans le cas de la chaîne LCP, les vidéos sont encodées avec une taille de 544×576 pixels (Storage Aspect Ratio) qui doit être redimensionnée en 720×576 pixels pour obtenir le ratio original de l’image. Les annotations sont fournies dans des fichiers XML en utilisant le schéma de données du logiciel VIPER (VIdeo Performance Evaluation Resource) 1 . Les annotations ne concernent pas les vidéos entières, mais uniquement un certain nombre de segments. Un segment annoté pour une personne débute sur l’apparition à l’image d’une personne et termine lors de sa disparition. Pour chaque de segment, une trame clef a été sélectionnée par l’annotateur. Cette trame est choisie aléatoirement avec pour contrainte d’éviter les trames situées à la limite de deux plans. Si cette trame clef contient le visage d’une personne annotée pour ce segment, il est détouré par un polygone, dessiné manuellement par l’annotateur. La quantité d’annotation de personnes dans chaque vidéo varie entre 30% et 90% de la longueur totale de l’émission. En utilisant les vidéos d’origine et les annotations, nous avons extrait des occurrences vidéo de personnes dont l’identité est connue. En effet, toutes les personnes des vidéos du corpus ne sont pas annotées, c’est le cas notamment des personnes au sein d’une foule ou du public. La plupart des personnes sont présentes dans de nombreuses occurrences vidéo réparties le long de la vidéo. Ceci permet d’établir une collections de tests conséquente qui nous servira de vérité terrain lors de nos expérimentations. Au total, le corpus est composé de 303 personnes différentes, dont l’identité est donnée par les annotations. Chaque personne apparaît en moyenne dans 15 émissions différentes. Les présentateurs apparaissent naturellement plus fréquemment que les autres personnes : ils peuvent apparaître dans plus de 50 occurrences vidéo par émission alors que certaines personnes peuvent n’apparaître qu’une seule fois.
Prétraitements des données
Les occurrences vidéo de personnes sont extraites de 141 émissions différentes. Les annotations ont été utilisées pour vérifier que chaque occurrence vidéo de personne contienne au plus une personne. Soulignons que tous les visages présents dans un segment annoté ne sont pas annotés dans le corpus REPERE, selon des critères de tailles et de sémantique. C’est le cas des scènes avec un public, notamment dans les scènes en extérieur. Nous avons filtré manuellement les occurrences vidéo pour nous assurer de la qualité du corpus. Ceci nous permet d’éviter toute confusion entre ces personnes lors de l’évaluation. Car bien que les visages soient annotés en position sur les trames clefs, les segments annotés ne tiennent pas compte du changement de plan. Il n’y a donc aucune garantie de la correspondance des visages en dehors des trames clefs. De plus, tous les visages ne sont pas annotés, même sur les trames clefs. Ensuite, un algorithme combinant de la détection de visages et les annotations a été utilisé pour retirer toutes les occurrences qui pourraient contenir des personnes nonannotées. Le détecteur nous permet de mettre en évidence toutes les séquences vidéo dont deux visages ou plus ont été détectés dans pour une même trame.Ainsi, à la fin du processus de sélection, nous obtenons 5279 occurrences vidéo de 303 personnes différentes. Chacune est présente en moyenne dans 5 émissions. Les journalistes sont plus représentés que les invités.
Calcul des matrices de similarités
Chaque occurrence vidéo de personne de notre corpus a été utilisée pour construire des histogrammes spatio-temporels, spatiogrammes et histogrammes de couleur afin de comparer ces trois descripteurs. Ces descripteurs ont été construits en utilisant différentes combinaisons de paramètres : — nombre de partitions différents (10, 50, 100, 150, 200, 250, 300, 350, 400, 500, 800, 1.000, 1.500, 2.000, 2.500, 5.000, 10.000 et 100.000), — des espaces de représentation des couleurs différents (RGB, OHTA, HSV), — des stratégies de constructions différentes (accumulation, fenêtres glissantes, fenêtres sautantes et séparation des canaux). Les matrices de similarités ont été générées en utilisant des mesures de similarités différentes (χ 2 , Bhattacharyya, Bhattacharyya combinée à Mahalanobis et χ 2 combiné à Mahalanobis).