Les flux vidéo et la reconnaissance de personnes

Les flux vidéo et la reconnaissance
de personnes

Progrès de l’acquisition vidéo Cette omniprésence s’explique premièrement par les progrès réalisés concernant les dispositifs d’acquisition vidéo. Les premiers capteurs vidéo capables de convertir une image optique en signal électrique datent des années 1930 avec les tubes caméras [3]. Ces tubes étaient trop encombrants pour permettre leur portabilité avant le milieu des années 1970 (cf. Figure 1.1). Ils ont été remplacés à partir de 1999 par les capteurs CCD et CMOS. Ceux-ci sont composés d’une matrice de capteurs. Chacun est responsable d’un point de l’image (pixel). Les dispositifs d’acquisition ont pu être grandement miniaturisés. Les différentes améliorations successives ont permis la fabrication à grande échelle de dispositifs toujours plus complexes. Ceux-ci se sont ouverts au marché grand public. Ce matériel est ainsi progressivement devenu accessible au plus grand nombre. Le prix à la consommation pour les équipements photo et vidéo ne représente aujourd’hui que le dixième de leur prix de 1998 1 . Cela explique en partie la démocratisation des équipements vidéo. L’omniprésence de la vidéo ne s’explique pas uniquement par les progrès techniques qui entourent l’acquisition de la vidéo, mais aussi par les progrès concernant son stockage et sa diffusion. L’évolution des supports d’enregistrement vidéo est directement liée aux avancées en matière d’acquisition vidéo et de stockage informatique. De 1956 à 2000, le principal médium d’enregistrement est la cassette vidéo. L’information est encodée sur une bande magnétique souple. La vidéo est principalement stockée analogiquement sur ce support. Le début de l’enregistrement numérique marque la fin des cassettes vidéo. De 2000 à aujourd’hui, la cassette vidéo a été progressivement remplacée par le DVD. Les supports optiques (CD, DVD et Blu-Ray) stockent l’information vidéo en marquant un disque en rotation avec un faisceau laser. Le support Blu-Ray ne s’est pas encore imposé auprès du public pour la sauvegarde de vidéo. De nos jours, les supports physiques tendent à disparaître de l’environnement de l’utilisateur au profit de la dématérialisation et du stockage en ligne (cloud). Ce dernier est possible grâce à la démocratisation de l’accès à Internet. En 2013, 79,6% des Français ont accès à Internet 2 . De plus, l’accès haut débit 3 se généralise (70% des internautes français). Il est ainsi possible, pour une part de plus en plus importante de la population, de transférer une vidéo en haute définition en moins de temps qu’il n’en faut pour la visionner. Les différentes avancées techniques qui entourent la vidéo, de son acquisition à son partage, ont permis la démocratisation de son usage. L’INSEE estime qu’en 2010, quasiment tous les foyers de France étaient équipés de télévision, de magnétoscope ou lecteur DVD. De plus, tous les ordinateurs portables et smartphones vendus aujourd’hui sont équipés d’une webcam et le taux d’équipement des foyers en téléphones portables et en connexion Internet est en constante augmentation. En 2012, 46% des Français sont équipés de smartphones 4 . Ainsi, une part très importante de la population française est capable de réaliser l’acquisition, l’affichage et la diffusion par Internet de vidéos.

Dimension sociétale de la vidéo

Aujourd’hui, la démocratisation de la vidéo est telle qu’elle est devenue un phénomène de société, l’augmentation du nombre de chaînes télévisées en témoigne. La première chaîne télévisée nationale a été créée en 1935. En 1986, on comptait 6 chaînes nationales. Aujourd’hui, après le passage à la télévision numérique terrestre (TNT), on en compte plus de 80 en France. Cela représente donc 80 heures de contenu vidéo diffusé pour chaque heure qui s’écoule. En 2008, les Français ont regardé la télévision en moyenne 3h24 5 par jour. De plus, avec l’augmentation de la pénétration d’Internet dans les foyers et l’augmentation de la vitesse des connexions, de nombreux sites de partage de vidéos sont apparus. Parmi les plus connus, on peut notamment citer YouTube et Dailymotion. Les différents sites de réseaux sociaux permettent aussi le partage de vidéos ; c’est le cas de Facebook, VKontakte et Google+. La fusion du réseau social Google+ avec la plate-forme de partage de vidéos Youtube illustre parfaitement l’importance sociale qu’acquiert la vidéo avec le temps. 100 heures de vidéo sont mises en ligne chaque minute sur la plateforme de partage de vidéos YouTube. Plus d’un milliard d’utilisateurs uniques consultent YouTube chaque mois. Tous les mois, les internautes regardent plus de six milliards d’heures de vidéo sur YouTube, soit presque une heure par personne dans le monde.

Conséquences

L’omniprésence de la vidéo fait qu’aujourd’hui, il devient difficile de traiter la quantité de vidéos disponibles pour en tirer des informations pertinentes. En ce qui concerne les organismes d’archivage vidéo, prenons comme exemple l’Institut National de l’Audiovisuel (INA) : ses archives couvrent presque 70 ans d’histoire de la télévision, avec notamment le premier journal télévisé français datant du 26 juin 1949. On estime qu’il faudrait 300 ans pour voir et écouter de façon ininterrompue toutes les archives de l’INA. La question de la recherche de contenus dans cette masse colossale de vidéos se pose naturellement. On doit ainsi s’intéresser à ce que cherchent les utilisateurs dans les vidéos. Dans la page Trends du moteur de recherche Google 6 , pour les années 2011, 2012 et 2013, 5 requêtes parmis les 10 requêtes les plus populaires dans le monde concernent des personnes. Pour ces trois années, la requête mondiale la plus populaire sur Internet concerne une personnalité. Les 6 vidéos Youtube les plus vues sur Internet 7 ont toutes le nom d’une personne dans leur titre. Enfin, si on consulte le site de l’INA, on remarque qu’une partie importante du site est dédiée à la recherche de vidéos de personnalités 8 . Ainsi, les personnes contenues dans les vidéos sont importantes pour les utilisateurs. Pour faciliter la recherche de vidéos contenant des personnes, il est utile de pouvoir annoter de telles vidéos pour pouvoir les indexer et effectuer des recherches. Le volume de données et la complexité de la tâche sont trop importants pour être réalisée par des personnes. Il est donc nécessaire d’automatiser cette tâche.

Applications de la reconnaissance de personnes

La problématique de la reconnaissance de personnes dans les vidéos est à la croisée de nombreux axes de recherche : l’indexation multimédia, la fouille de données, la vision par ordinateur, l’intelligence artificielle, la biométrie, etc. Les applications de la reconnaissance de personnes à partir de la vidéo sont multiples. On retrouve la reconnaissance de personnes dans la sécurité, par exemple aux postes frontières de certains pays, pour vérifier que l’identité réelle de la personne et celle indiquée dans son passeport correspondent. De même, la reconnaissance de personnes est utilisée pour déverrouiller automatiquement certains smartphones quand son propriétaire l’utilise. La reconnaissance de personnes à partir de vidéos se retrouve aussi dans le domaine de l’indexation vidéo. L’objectif est d’identifier les personnes présentes dans une vidéo pour ensuite effectuer des recherches ou des recoupements à partir de ces informations. Cette application intéresse notamment les réseaux sociaux, afin d’identifier les utilisateurs et de faciliter le partage. Les organismes d’archivage s’y intéressent pour sélectionner, organiser et documenter les vidéos afin de les éditorialiser sous forme de collections thématiques.

Difficultés de la reconnaissance de personnes

D’une façon générale, les problèmes que l’on rencontre lors de la reconnaissance de personnes concernent deux aspects : les variations d’apparence de la personne que l’on souhaite reconnaître d’une part, et les conditions de prise de vue de l’autre. La personne peut se montrer non-coopérative en prenant des postures particulières, allant du simple fait de baisser la tête jusqu’à l’occultation partielle ou complète de celle-ci (cf. Figure 1.2). Porter des lunettes, un couvre-chef, un foulard, du maquillage, présenter une pilosité particulière, etc. peut rendre les mécanismes de détection et de reconnaissance inefficaces. La plupart des approches de reconnaissance supposent la coopération, au moins passive, du sujet .