Structuration géo-temporelle de données multimédia personnelles en vue de la navigation sur un appareil mobile

Les métadonnées disponibles à partir d’un appareil mobile

Les appareils mobiles sont des ordinateurs possédant maintenant un système d’exploitation et une mémoire de stockage importante, et gèrent un nombre croissant de données multimédia. Ainsi pour chaque nouvelle image obtenue, des post-traitements sont réalisés sur le contenu des images (accentuation des couleurs,…) et des métadonnées sont ajoutées automatiquement. Les constructeurs d’appareils photographiques numériques suivent des standards pour stocker ces informations. Dans le contexte des images numériques, le format EXIF (Exchangeable Image File) permet de mémoriser : la date de la prise de vue ; les informations liées à la prise de vue (temps d’exposition, ouverture du diaphragme,…) ; les informations sur l’appareil (marque,…).

Organisation d’une collection d’images à l’aide de métadonnées

Certains systèmes utilisent seulement les métadonnées pour organiser les images. L’objectif étant de faciliter/automatiser l’annotation des images et de pouvoir rechercher une image donnée à l’aide d’une requête.
Des techniques simples ont été proposées pour faciliter la création de métadonnées. Le système permet de nommer les personnes présentes dans des images en faisant glisser leur nom avec la souris propose d’enregistrer des commentaires audios sur les images. Néanmoins, ces manipulations demandent du temps et sont à réaliser pour chaque image. Il est donc peu probable que l’utilisateur les réalisent pour chaque prise de vue.
Afin de générer automatiquement les métadonnées, une première approche consiste à récupérer les informations sur le contexte de l’image. Le lieu et la date permettent de retrouver plusieurs informations contextuelles : le pays, la région, la ville, . . . ; le climat (nuageux, température,. . .) ; la saison, le mois, le jour, . . ..
Les informations météorologiques peuvent être récupérées sur Internet ou bien à partir d’un SIG. Tous les champs générés ne sont pas pertinents. En effet, un utilisateur ne se souvient pas forcément du climat qu’il faisait au moment de prendre sa photographie et encore moins de l’altitude.
Une seconde approche est de partager les métadonnées via un réseau d’utilisateurs . En se basant sur le contexte de l’image, une recherche automatique est alors réalisée parmi les annotations d’images ayant un contexte similaire. Ces annotations sont proposées automatiquement et doivent être validées par l’utilisateur. L’avantage sur l’approche précédente est l’accès à des métadonnées plus riches (un commentaire sur le contenu de l’image d’un autre utilisateur par exemple). Un tel système suppose néanmoins un grand nombre d’utilisateurs pour être efficace et requiert l’attention de l’utilisateur pour chaque annotation automatique.
Enfin, une annotation automatique de chaque image peut être réalisée en se basant sur le contenu de l’image. Ces techniques manquent encore de précision, à cause de la difficulté à déterminer une annotation pertinente en se basant juste sur un critère abstrait comme la couleur ou la texture. Dire qu’une zone de ciel est présente car du bleu est situé sur le haut d’une image n’est pas toujours vrai.
Ces approches sont pertinentes pour enrichir les métadonnées des images et proposer des systèmes de recherche par requête. L’organisation par événements n’est en revanche pas proposée. Néanmoins, ces approches restent pertinentes pour pouvoir ensuite étiqueter un groupe d’images avec des métadonnées facilement interprétables. Dans nos travaux, nous proposons tout d’abord de classer les images et ensuite de représenter les groupes obtenues à l’aide de métadonnées. Un exemple d’une telle approche est aussi proposée : elle consiste à annoter les personnes présentes sur les images à partir de classifications temporelle et spatiale.

Organisation d’une collection d’images par le contenu

Plusieurs systèmes proposent une approche basée sur le contenu des images. Des critères abstraits, tels que la couleur ou la texture, et la détection de visage sont proposés.
Comme nous l’avons vu précédemment, ces critères sont peu pertinents pour les utilisateurs. Ces systèmes combinent donc généralement cette approche avec d’autres critères. Les systèmes organisent les images temporellement et affinent le résultat à l’aide du contenu des images. Le système propose un critère de similarité combinant le contenu des images et leurs paramètres optiques (temps de pose, diaphragme, …). Ces paramètres sont censées nous donner des informations sur le contexte de l’image : intérieur ou extérieur, portrait,…
Une technique plus intéressante pour les utilisateurs est la détection de visages, proposée par exemple . Ce système permet la détection de visages et leur apprentissage dans le but de faciliter l’annotation des images. Pour chaque visage détecté sur une nouvelle image, le système fait une proposition d’annotation à l’utilisateur. Ce critère est apprécié des utilisateurs et pertinent pour rechercher les images à l’aide d’une requête. La mise en œuvre d’une telle technique sur un appareil mobile est maintenant possible avec l’apparition d’algorithmes peu coûteux. Néanmoins, une telle approche n’est pas suffisante pour parcourir ou organiser une collection d’images.

Structuration temporelle d’une collection d’images

L’organisation d’une collection à partir de la métadonnée temporelle est proposée dans de nombreux systèmes. Cela s’explique par l’accessibilité à cette information, celle-ci étant directement incluse dans les métadonnées de l’image par l’appareil photographique. Elle présente de plus l’avantage d’être facilement interprétable.
L’objectif de ces méthodes est de déterminer l’intervalle de temps séparant les événements de la collection. Une telle durée varie néanmoins suivant la structure de la collection. Un utilisateur peut photographier plusieurs événements sur un court laps de temps et ensuite sur des périodes beaucoup plus longues. Elle est aussi subjective : selon l’utilisateur, deux semaines de vacances peuvent être représentées par un ou plusieurs événements.
Une première méthode pour déterminer les groupes d’images consiste à fixer manuellement une limite inter-événements. Les expériences de ces travaux ont montré que cette limite présentait des résultats corrects si elle variait entre 6 et 24 heures. L’avantage de cette méthode est sa simplicité de mise en œuvre. Cependant, sa dépendance à un paramètre fixé manuellement peut donner des résultats variables suivant les collections. Certains algorithmes l’utilisent néanmoins pour initialiser leurs partitions avant de procéder à des traitements plus complexes. Ceux-ci calculent automatiquement une limite inter-événements variable en se basant sur la moyenne des intervalles de temps séparant les images deux à deux. Par exemple, le système Phototoc se base sur la moyenne des intervalles de temps dans une fenêtre donnée utilise l’algorithme k-means sur un histogramme des distances temporelles des images deux à deux pour fixer une limite inter-événements.
Plusieurs de ces techniques sont couplées avec des critères de classification basés sur le contenu de l’image . Certaines utilisent aussi les caractéristiques de prise de vue des images comme la distance du sujet, l’ouverture de l’objectif ou le temps d’exposition.
Enfin plusieurs travaux proposent des classifications hiérarchiques, construites à partir des métadonnées (division générale par année, mois, jour) ou en se basant sur plusieurs valeurs de limites inter-événements. Cette approche est intéressante puisqu’elle fournit plusieurs points de vue sur un épisode temporel et elle répond ainsi aux problèmes de définition d’un événement.

Organisation géographique d’une collection d’images

Il n’existe, à notre connaissance, qu’un seul système d’organisation d’images utilisant les coordonnées géographiques pour classer automatiquement les images. Cette métadonnée est, en pratique, encore peu disponible pour les appareils grand public, ce qui explique le peu de propositions d’organisation spatiale (nous utilisons indifféremment les mots spatial et géographique). Ce système est celui se rapprochant le plus de nos travaux. Contrairement à notre approche, il se base sur une série de règles de « bon sens », pour déterminer les limites inter-événements. Par exemple, une distance géographique entre deux images supérieure à une limite fixée prédit un changement d’événements (technique identique à celle de fixer manuellement une limite inter-événement). Le système dépend de paramètres arbitraires.
Le point particulièrement intéressant de cette approche est qu’elle combine les informations temporelles et spatiales pour obtenir deux classifications distinctes : une temporelle et une spatiale. Les images sont tout d’abord classées à partir de la métadonnée temporelle puis, une classification de ces événements est ensuite réalisée en se basant sur le lieu (les événements sont affectés à différents lieux). La classification temporelle est initialisée à partir d’une limite inter-événement fixée manuellement et une approche probabiliste automatique permet ensuite de classer ces séries temporelles par lieu. Une hiérarchie de lieux est ensuite construite en appelant de façon récursive l’algorithme de classification sur les lieux comprenant un grand nombre d’événements. Le niveau le plus général est ensuite obtenu en se basant simplement sur une division par pays (un utilisateur se rappelant généralement dans quel pays les images ont été prises). Cette approche est néanmoins basée sur plusieurs critères fixés manuellement. Notre objectif est de fournir un système ne dépendant pas de tels critères.

Table des matières

Introduction
1 Propriétés et organisation automatique de collections d’images
1.1 Introduction
1.2 Propriétés des collections d’images personnelles acquises sur un appareil mobile
1.2.1 Un changement de comportement
1.2.2 Les critères d’organisation et de recherche
1.2.3 Les métadonnées disponibles à partir d’un appareil mobile
1.3 État de l’art sur les systèmes d’organisation de collections d’images personnelles
1.3.1 Organisation d’une collection d’images à l’aide de métadonnées
1.3.2 Organisation d’une collection d’images par le contenu
1.3.3 Structuration temporelle d’une collection d’images
1.3.4 Organisation géographique d’une collection d’images
1.4 Conclusion
2 Cahier des charges et choix de l’approche pour la classification
2.1 Introduction
2.2 Notre cahier des charges
2.2.1 Les contraintes liées aux terminaux mobiles
2.2.2 Aperçu de notre technique
2.3 Aperçu des principales approches pour la classification
2.3.1 Algorithmes hiérarchiques
2.3.2 Approche par partitionnement direct
2.3.3 Approche basée sur la densité
2.4 Choix de la famille d’algorithmes de classification au vu des propriétés des données
2.4.1 Propriétés des métadonnées temporelles et spatiales
2.4.2 Approche par modèle de mélange
2.5 Conclusion
3 Modèle de mélange probabiliste pour les données spatiales et temporelles
3.1 Introduction
3.2 Le modèle de mélange
3.2.1 Définition
3.2.2 Modèle de mélange pour la classification
3.3 Les paramètres du modèle gaussien
3.3.1 Contraintes sur les paramètres du modèle
3.3.2 Choix des paramètres de modélisation
3.4 Critères d’optimalité et algorithmes d’estimation des paramètres
3.4.1 Critère du maximum de vraisemblance et algorithmes pour l’optimiser
3.4.2 Critère du maximum de vraisemblance classifiante et algorithmes pour l’optimiser
3.5 Gestion des petits échantillons de données
3.5.1 Règle discriminante linéaire
3.5.2 Analyse discriminante régularisée (RDA)
3.5.3 L’estimation Leave One Out Covariance (LOOC)
3.5.4 Régularisation bayésienne
3.5.5 Proposition d’une régularisation
3.6 Conclusion
4 Sélection de la complexité dans le cadre de modèles de mélange
4.1 Introduction
4.2 Méthodes de sélection d’un modèle
4.2.1 Méthode par ré-échantillonnage
4.2.2 Pénalisation de la mesure de qualité d’un modèle
4.2.3 Approches liées aux modèles de mélange
4.2.4 Les critères numériques basés sur une pénalisation de la vraisemblance par la complexité
4.2.5 Critères en classification automatique
4.2.6 Vraisemblance pénalisée par la classifiabilité et la complexité du modèle
4.3 Comparaison des critères pour notre cas d’utilisation
4.3.1 Classification temporelle
4.3.2 Classification spatiale
4.4 Conclusion
5 Algorithme incrémental d’optimisation du critère ICL
5.1 Introduction
5.2 Stratégies d’optimisation
5.2.1 Recherche de la meilleure initialisation
5.2.2 L’algorithme SMEM
5.3 Proposition d’un algorithme incrémental
5.3.1 Description de notre algorithme incrémental d’optimisation
5.3.2 Propriétés de notre algorithme
5.4 Classification de trois collections d’images à l’aide de notre algorithme incrémental d’optimisation
5.4.1 Collection artificielle
5.4.2 Collection artificielle réaliste
5.4.3 Collection réelle de Guillaume B
5.5 Conclusion
6 Structuration hiérarchique incrémentale de la collection
6.1 Introduction
6.2 État de l’art sur les algorithmes hiérarchiques basés sur les modèles de mélange gaussien
6.2.1 Approche par fraction
6.2.2 Résumé d’un modèle de mélange
6.2.3 Approche par minimum de variance
6.3 Sélection des niveaux d’un arbre binaire avec le critère ICL
6.4 Proposition d’un algorithme hiérarchique et incrémental
6.5 Expériences sur la sélection de niveaux avec le critère ICL
6.5.1 Expérience sur la collection artificielle réaliste
6.5.2 Expérience sur la collection réelle
6.6 Conclusion
7 Structuration hiérarchique incrémentale : résultats expérimentaux
7.1 Introduction
7.2 Classifications hiérarchiques de la collection artificielle réaliste
7.2.1 Classification temporelle
7.2.2 Classification spatiale
7.3 Classifications hiérarchiques de la collection réelle de Guillaume B
7.3.1 Classification temporelle
7.3.2 Classification spatiale
7.3.3 Évaluation pratique des partitions par l’utilisateur
7.4 Conclusion
8 Métadonnées contextuelles & structuration jointe spatio-temporelle
8.1 Introduction
8.2 Représentation des classes des partitions à l’aide de métadonnées contextuelles issues d’un SIG et d’une base de connaissances
8.2.1 Caractérisation d’une image à partir de métadonnées contextuelles
8.2.2 Caractérisation d’une classe à partir des métadonnées contextuelles de ses images
8.3 Construction de partitions hybrides géo-temporelles
8.3.1 Combinaison des partitions temporelle et spatiale non-hiérarchiques par un critère statistique
8.3.2 Combinaison des partitions temporelles et spatiales hiérarchiques
8.4 Expérience : construction de partitions hybrides non hiérarchiques
8.5 Conclusion
Conclusion