Approche classique de reconnaissance de personnes dans les vidéos
Cette approche se compose de plusieurs modules (cf. Figure 3.1) [116]. Le premier module consiste en un découpage en plans. Cela permet de découper la vidéo en segments homogènes en termes de conditions de prise de vue et de personnes présentes. La deuxième étape consiste à détecter les personnes dans tout le corpus. Pour cela, les approches de l’état de l’art utilisent le plus souvent un détecteur de visages, le plus courant étant le détecteur basé sur des pseudos caractéristiques de Haar proposé par Viola et Jones [106]. La détection du visage permet d’extraire les personnes dans l’image. L’ensemble des pixels qui composent la personne forment un blob : Définition 3. Un blob est une région composées de pixels contigus qui partagent une propriété commune. La séquence des blobs successifs d’une personne dans un plan forment un persontrack [31]. Ce terme anglais de persontrack ne semble pas avoir d’équivalent en français ; nous proposons de le nommer occurrence vidéo de personne (OVP). Définition 4. Une occurrence vidéo de personne est une séquence de blobs issus de trames contiguës tirées d’un même plan, représentant une unique personne. Pour isoler une occurrence vidéo de personne d’un plan de la vidéo, les détections consécutives sont fusionnées à l’aide un algorithme de suivi. Quand plusieurs personnes sont présentes dans un plan donné, alors le plan contient plusieurs occurrences vidéo. Nous notons Oi l’ensemble des occurrences vidéo des personnes appartenant à la vidéo Vi : Oi = {o0, o1, . . . , o|Oi|−1} (3.3) Les visages d’une occurrence vidéo de personne sont ensuite utilisés pour reconnaître le sujet en utilisant un algorithme dédié à partir d’une base d’apprentissage contenant les différentes identités à reconnaître, ainsi que les descripteurs permettant d’associer une identité à une occurrence vidéo de personne. Cette base est construite au préalable à partir d’occurrences vidéo de personnes ou d’images de personnes annotées. L’ensemble des identités considérées est noté : I = {ι0, ι1, . . . , ι|I|−1} (3.4) Cet ensemble (non ordonné) est défini de manière commune à l’ensemble du corpus vidéo. À chaque occurrence vidéo de personne est associée une identité ι. Nous définissons la fonction id : id : O → I o → ι (3.5) comme la fonction qui indique l’identité ι associée à l’occurrence vidéo de personne o, dans un corpus annoté. Nous avons formalisé les notions permettant de présenter l’approche classique de reconnaissance de personnes dans les vidéos et de comprendre nos contributions que nous allons maintenant présenter.
Proposition générale
Notre proposition générale est inspirée de l’approche classique de reconnaissance présentée à la Figure 3.2. Un premier volet (cf. Figure 3.2) s’intéresse au regroupement des occurrences de personnes (aussi appelé ré-identification). Elle est détaillée dans la Partie II de nos travaux. Nous faisons l’hypothèse qu’au sein d’une vidéo, l’apparence (visage, cheveux, costume, etc.) d’une personne ne varie pas. Nous proposons, dans le Chapitre 4, un descripteur pour représenter chacune des occurrences vidéo de personnes, afin de les mettre en correspondance. Ce descripteur, appelé histogramme spatiotemporel, fournit une représentation de l’aspect visuel (couleurs), spatial (positions dans l’image), ainsi que temporel (temps d’apparition) des personnes présentes dans les occurrences vidéo. L’objectif est de créer une signature propre à chacune, qui soit la plus discriminante possible. Les signatures servent de base à un processus de regroupement (clustering) dont l’objectif est de séparer les identités dans des groupes d’occurrences. Autrement dit, l’objectif de cette étape est de ranger dans un même groupe Ω∗ ι,i toutes les occurrences de personnes d’une vidéo Vi ayant la même identité ι : Ω ∗ ι,i = {o ∈ Oi |id(o) = ι} (3.6) Notre approche est dynamique en cela qu’elle exploite l’aspect temporel des vidéos. Les histogrammes spatio-temporels permettent dans une certaine mesure de localiser les apparitions des couleurs dans une occurrence vidéo de personne et de donner des indications quant au mouvement des couleurs dans le temps et dans l’espace. La plupart des approches de l’état de l’art ne considèrent pas le temps dans la description d’une occurrence d’une personne [15], elles ne donnent qu’une représentation de l’aspect visuel des personnes. Le second volet (cf. Figure 3.2) est consacré au nommage des personnes, en se basant sur les groupes définis dans la partie précédente. Elle est détaillée dans la partie III de nos travaux. Nous utilisons dans le Chapitre 6 une approche de reconnaissance de l’état de l’art pour identifier un sous-ensemble d’occurrences choisies d’un groupe, ces identités sont propagées, avec une stratégie adaptée, à toutes les occurrences du groupe. La reconnaissance de personne nécessitant d’importants calculs, l’objectif est limiter le nombre d’occurrences à considérer et de propager les identités dans les groupes. Cela nous permet de nommer plus d’occurrences de personnes qu’une approche dépourvue de propagation, améliore sensiblement la précision et nécessite moins de calculs. De cette façon, la plupart des limitations de la reconnaissance sont contournées pour identifier les personnes au sein d’une même vidéo. La fonction inverse id−1 permet, à partir d’une identité ι, de retrouver l’ensemble Oι des occurrences vidéo correspondant à cette identité. Cette fonction s’apparente à une fonction de recherche des occurrences d’une personne dans la vidéo. L’objectif de ce travail de thèse est de proposer une approche originale pour définir des fonctions ˆid et ˆid−1 comme des approximations des fonctions id et id−1 . Dans les Parties II et III, nous évaluons nos propositions afin de les valider expérimentalement (respectivement dans les Chapitres 5 et 7). Dans le Chapitre 8, nous concluons en résumant les points principaux de nos contributions, et nous proposons quelques perspectives que nous allons explorer suite à ce travail.
Histogrammes spatio-temporels
Nous définissons ici de façon formelle l’histogramme spatio-temporel qui est un descripteur qui nous permet de créer une signature d’occurrence vidéo de personne. Ce descripteur est une des contributions principales de notre travail. La définition que nous proposons pour les histogrammes spatio-temporels est une extension des spatiogrammes proposés dans les travaux de Truong Cong [102], eux-mêmes étant une extension des histogrammes de couleurs classiques. La structure de données de l’histogramme spatio-temporel hsto, construite à partir de l’occurrence vidéo o, est définie ainsi : hsto(b) =< nb, µb, Σb >, b = 1, . . . , B (4.1) où nb est le nombre de pixels de la partition b (bin en anglais) et B le nombre total de partitions. La position moyenne dans l’espace et dans le temps, µb, est définie par : µb = (x¯b, y¯b,t¯b) (4.2) En notant xb et yb la position normalisée des pixels de la partition dans l’occurrence vidéo, et tb leur indice temporel normalisé, leurs valeurs moyennes sont dénotées par x¯b, y¯b et t¯b. Σb est la matrice de covariance de ces positions spatio-temporelles : Σb = cov(xb, xb) cov(xb, yb) cov(xb, tb) cov(yb, xb) cov(yb, yb) cov(yb, tb) cov(tb, xb) cov(tb, yb) cov(tb, tb) (4.3) Cette matrice de covariance est symétrique car cov(a, b) = cov(b, a). Rappelons que les histogrammes spatio-temporels, tels que définis dans l’Équation 4.1, contiennent des spatiogrammes, et de manière identique, les spatiogrammes contiennent des histogrammes de couleurs (cf. Section 2.2.1).