Nommage de groupes
Nommage d’une occurrence à partir de ses trames
Nous nous intéressons à la manière de décider d’une occurrence pour déterminer son identité à partir des trames qui la composent. Pour cela, plusieurs stratégies pour nommer une occurrence vidéo à partir de ses trames sont envisageables. Nous en présentons différentes en déclinant les avantages et inconvénients de chacune. Comme présenté dans la Section 2.1, la reconnaissance de visages se base la plupart du temps sur une image fixe (reconnaissance statique). Les techniques actuelles donnent de très bons résultats dès lors que les conditions de prise de vue sont contrôlées (i.e. pose frontale, expression neutre, pas d’occultation, éclairage maîtrisé). En revanche, les performances peuvent rapidement se dégrader dans le cas contraire. Peu d’algorithme de reconnaissance exploitent réellement la vidéo (reconnaissance dynamique). Une vidéo étant composée d’une séquence d’images, il est ainsi possible d’appliquer un algorithme de reconnaissance statique sur les images qui la composent. Si on appelle F l’ensemble des trames des vidéos du corpus, nous pouvons définir la fonction ˆidf de reconnaissance de visages qui associe une indentité à une trame : ˆidf : F → I (6.1) f → ι (6.2) Les algorithmes de reconnaissance sont coûteux en temps de calcul et les appliquer sur toutes les trames d’une vidéo interdirait un passage à l’échelle. Ainsi, il est nécessaire de définir une stratégie afin d’exploiter au mieux cette séquence d’images dans le cadre d’une approche dynamique de la reconnaissance de personnes dans les occurrences vidéo. Dans un premier temps, nous allons discuter de l’utilisabilité d’une trame avant de nous intéresser aux méthodes de sélections d’une trame, pour ensuite généraliser nos travaux au choix de plusieurs trames.
Utilisabilité d’une trame
Avant tout, il est important de noter que toutes les trames ne sont pas exploitables par les algorithmes de reconnaissance. Nous avons vu dans l’état de l’art sur la reconnaissance (cf Section 2.1) que ces différents algorithmes présentent des contraintes d’utilisation très fortes et nécessitent des conditions particulières pour produire de bons résultats. En effet, ils nécessitent que les images soient normalisées de façon à reproduire ces conditions de façon homogène pour toutes les trames de la séquence vidéo. Cette normalisation nécessite souvent de déterminer des points particuliers du visage servant de référence pour la normalisation. Les points les plus utilisés sont généralement situés sur les yeux, le nez et la bouche. La localisation de ces points d’intérêt peut être problématique dans de nombreux cas (occultations, expressions faciales, clignement des yeux, artefacts de compression, etc.), rendant l’image inexploitable pour la reconnaissance. Les expérimentations présentées par la suite, dans le Chapitre 7, montrent qu’une part importante des images de visages (environ 60%) est inexploitable pour ces raisons. Dans le cas de ces images, le résultat de l’identification est indéterminé : ˆidf (f) = ø, avec ø l’identité inconnue. Il est donc important, pour les approches qui ne considèrent qu’une seule trame de l’occurrence vidéo de personne, de choisir une trame exploitable. Dans les stratégies que nous envisageons dans les sections suivantes, nous considérons exclusivement les trames exploitables pour la reconnaissance de personnes : {f| ˆidf (f) 6= ø}.
Reconnaissance basée sur une trame unique
La première stratégie que nous considérons consiste à utiliser une unique trame pour décider de l’identité de l’occurrence vidéo de personne. Dans un premier temps, nous envisageons de sélectionner la trame située au centre de la séquence vidéo. Nous allons ensuite considérer le choix de la trame la plus représentative selon un critère de couleur moyenne, c’est-à-dire la plus proche en termes de similarité de couleur à la moyenne calculée sur l’ensemble des trames de la séquence. Nous considérons ensuite la sélection de la trame affichant une différence minimale avec ses voisines (zone de mouvement minimal de la séquence). Enfin, nous considérons le choix d’une trame dans laquelle le sujet adopte la pose frontale la plus favorable à la reconnaissance
Choix de la trame centrale
Sans a priori sur la séquence de trames, le choix de n’importe quelle trame peut convenir. Cependant, dans la pratique, les premières et les dernières trames d’une séquence sont susceptibles de contenir des effets de transition, fondu enchaîné, traveling ou autre. Ainsi, l’avantage du choix de la trame centrale est qu’il s’agit de celle située le plus loin possible des extrémités de la vidéo. L’inconvénient de cette approche est que la trame située au milieu de la séquence n’offre aucune garantie d’être représentative de l’ensemble de la séquence vidéo. Critère de couleur moyenne Une alternative au choix de la trame centrale consiste à sélectionner la trame la plus représentative de la séquence en termes de couleur moyenne. Pour ce faire, la couleur moyenne de chaque trame est utilisée pour déterminer la couleur moyenne de la séquence. La trame retenue est la trame dont la couleur moyenne est la plus proche de la couleur moyenne de la séquence. one de mouvement minimal Une autre possibilité pour sélectionner une trame est de retenir la trame affichant le moins de différence par rapport à ses trames voisines. Cette approche permet d’éviter les flous de mouvement parfois présents à l’image, et amplifiés par la compression de la vidéo. L’algorithme du flot optique permet de déterminer la quantité de mouvements au sein de la vidéo, afin de sélectionner une trame dans la zone de mouvement minimal.