Détection de changements entre vidéos aériennes avec trajectoires arbitraires

Facebook Tweet Pin Email

Les activités basées sur l’exploitation de données vidéo se sont développées de manière fulgurante ces dernières années. En effet, non seulement avons-nous assisté à une démocratisation de certaines de ces activités, telles que la vidéo surveillance, mais également à une diversification importante des applications opérationnelles (e.g. suivi de ressources naturelles, reconnaissance aérienne et bientôt satellite). Cependant, le volume de données vidéo généré est aujourd’hui astronomique et l’efficacité des activités correspondantes est limitée par le coût et la durée nécessaire à l’interprétation humaine de ces données vidéo. Par conséquent, l’analyse automatique de flux vidéos est devenue une problématique cruciale pour de nombreuses applications. Les travaux réalisés dans le cadre de cette thèse s’inscrivent dans ce contexte, et se concentrent plus spécifiquement sur l’analyse automatique de vidéos aériennes [46, 64, 68]. En effet, outre le problème du volume de données, les vidéos aériennes sont particulièrement difficiles à exploiter pour un analyste image, du fait des variations de points de vue, de l’étroitesse des champs de vue, de la mauvaise qualité des images, etc. Pour aborder ces difficultés, nous avons choisi de nous orienter vers un système semi-automatique permettant d’assister l’analyste image dans sa tâche, en suggérant des zones d’intérêt potentiel par détection de changements.

Le nombre de nouveaux produits et services commerciaux basés sur l’exploitation de données vidéos n’a cessé d’augmenter ces dernières années. Les activités associées sont très diverses et s’intéressent par exemple à la reconnaissance géographique (e.g. recherche de survivants lors de catastrophes naturelles, analyse de théâtres d’opérations, détection d’engins explosifs improvisés) ou la surveillance (e.g. suivi de l’évolution de feux de forêts, sécurisation de sites, surveillance d’activités terroristes). L’analyse de vidéos ou de séquences d’images, qui est encore très majoritairement prise en charge par des équipes d’opérateurs humains, est donc devenue une tâche essentielle pour de nombreuses applications, à la fois civiles et militaires.

En parallèle, les progrès technologiques ont significativement amélioré les capacités des systèmes d’acquisitions, par exemple vis-à-vis de la résolution des images, des fréquences d’acquisition, des taux de compression, des capacités de stockage, etc. L’agence américaine de recherche avancée pour la défense (DARPA) a par exemple récemment annoncé le déploiement prochain d’un système aérien de surveillance vidéo appelé ARGUS. Ce système, voué a être porté par des drones, permettra de capturer un volume astronomique de données vidéo, avec une taille d’image de 1.8 giga-pixels, une fréquence de 12 images par seconde et sur une durée a priori illimitée.

Ainsi, associée à l’augmentation du nombre de caméras déployées, l’évolution technologique s’est traduite en pratique par une explosion de la quantité de données générées. Par conséquent, de nos jours, il n’est pas rare que les opérateurs chargés de l’analyse vidéo doivent rester concentrés durant de longues heures en étant attentifs à plusieurs flux en parallèle. De plus, dans un bon nombre d’applications, les événements ou objets recherchés sont relativement rares (e.g. intrusion sur site privé, vol ou agression, survivant d’une avalanche), ce qui demande une concentration continue malgré le caractère inintéressant de la majorité des données. Tout ceci rend donc l’analyse de grands volumes de données extrêmement éprouvante.

Outre le problème dû au volume des données, la tâche de l’analyse vidéo en elle-même, qui consiste généralement en la détection d’objets ou d’événements spécifiques, n’est pas triviale. En effet, l’interprétation de la scène observée peut être gênée par la faible qualité des images issues du flux vidéo. Cette faible qualité génère des variations importantes de l’apparence des objets observés. Ces variations peuvent par exemple être dues à la présence de bruit dans les images, à l’étroitesse de la gamme dynamique, qui peut engendrer des zones trop ou trop peu exposées en présence de forts contrastes dans la scène, ou encore à des variations d’illumination dans la scène.

Dans le cas de caméras mobiles, et plus précisément dans le cas de l’observation aérienne, ces variations d’apparence prennent une importance encore plus considérable. Pour commencer, le fait que la plate-forme d’acquisition soit mobile peut introduire un léger flou dans les images, qui peut être accentué par les conditions extérieures, telles que les vibrations dues au vent. Par ailleurs, les conditions météorologiques, comme par exemple la pluie ou le brouillard, affectent également les acquisitions de manière beaucoup plus visible et inévitable que dans le cas de caméra fixes. Ces conditions météorologiques peuvent réduire considérablement la qualité des images, par exemple en générant des déformations dues aux gouttes d’eau, des diminutions de contraste, etc. Ainsi, les variations d’apparence du contenu de la scène observée constituent une gêne importante pour l’interprétation des acquisitions, et peuvent donc perturber l’analyse vidéo.

Le manque de contexte est également un facteur important qui complexifie l’interprétation des acquisitions. Ce facteur est lié à l’étroitesse du champ de vue, qui fait que pour obtenir une résolution au sol correcte permettant une bonne compréhension de la scène observée, il est généralement nécessaire d’utiliser un facteur de zoom important qui empêche d’avoir une vision globale de la scène . Ce manque de contexte a notamment pour effet de gêner la perception de la position relative des objets observés et peut aussi affecter l’interprétation du contenu des images.

Enfin, la variabilité des points de vues selon lesquels les images sont acquises nuit également à l’exploitation des acquisitions. En effet, les images d’observation aérienne peuvent être acquises selon des orientations très différentes et peu habituelles. Cette variabilité des points de vue demande un effort important pour la localisation spatiale du contenu des images, ce qui complexifie certaines tâches d’analyse, comme par exemple la comparaison de plusieurs observations. D’autre part, le fait que les points de vue et les orientations de caméra soient inhabituels peut gêner la perception d’une scène, par exemple vis-à-vis de la taille relative des objets.

Ces difficultés font de l’analyse vidéo une tâche exigeante et coûteuse, ce qui a deux conséquences en pratique. D’une part, elles peuvent mener à des erreurs d’analyse, qui débouchent sur des conséquences plus ou moins graves selon l’enjeu associé à chaque application. D’autre part, l’analyse détaillée de l’ensemble des données acquises étant irréaliste, il est courant qu’une large majorité de ces données soient simplement stockées en attente d’exploitation, puis finalement effacées sans avoir été exploitées. Cela est par exemple courant dans le cas de la vidéo-surveillance dans les lieux publics, où en l’absence d’enquête judiciaire, les données sont effacées au bout d’une durée réglementaire maximale d’un mois.

Au vu des difficultés opérationnelles rencontrées dans le cadre de l’analyse vidéo, nous pouvons donc nous demander comment améliorer la performance et l’efficacité de l’opérateur dans sa tâche, ou en d’autres termes, comment maximiser l’information extraite des acquisitions disponibles pour les utiliser à leur plein potentiel. Pour cela, la solution consistant à proposer une approche complètement automatique semble irréaliste, du fait de la maturité limitée des techniques d’interprétation automatique d’images. En effet, une telle solution présenterait le risque de commettre un nombre important d’erreurs, la rendant contre-productive en pratique, voire dangereuse dans le cas d’applications critiques. Il semble en revanche plus réaliste d’adopter une approche semi-automatique, c’est-à-dire mettant ponctuellement l’opérateur à contribution pour augmenter la pertinence des résultats. Le principe d’une approche semi-automatique consiste en effet à combiner les avantages d’un traitement automatique, adapté pour l’exécution rapide et systématique d’opérations fastidieuses, avec ceux d’une analyse humaine, capable d’une grande précision pour les tâches de classification. Ce type d’approche est donc tout à fait approprié dans le cadre de l’analyse de grands volumes de données vidéo, qui nécessite à la fois une mise à l’écart rapide pour une majorité de données sans intérêt et une classification précise en présence de cas ambigus. Plus précisément, une méthode possible peut consister à utiliser des algorithmes appropriés pour analyser de multiples flux vidéos et effectuer des suggestions à l’opérateur lorsque des zones d’intérêt potentiel sont détectées. L’opérateur pourrait alors effectuer lui-même la distinction entre les objets ou événements pertinents et les cas sans intérêt mais ambigus. Un avantage notable de cette méthode est qu’une fois passée la phase initiale de réglage, elle peut être mise en œuvre parallèlement à l’analyse de l’opérateur, qui garde la possibilité d’inspecter directement les données.

Ainsi, le rôle central d’un système semi-automatique dans le cadre de l’assistance à l’analyse de données vidéo consiste à mettre à l’écart les données sans-intérêt, qui ne nécessitent pas l’attention de l’opérateur. Or, dans de nombreux cas applicatifs (e.g. détection d’intrusions sur site, détection d’engins explosifs improvisés), la distinction entre données sans-intérêt et données d’intérêt potentiel peut être effectuée en déterminant l’absence ou la présence de changements significatifs par rapport à une référence. Cette notion de changements significatifs est importante, car tous les changements dans la scène observée ne représentent pas un intérêt pour l’opérateur. Cette notion sera donc abordée plus en détails un peu plus loin. Le problème de la comparaison entre plusieurs données, ou plus généralement de la détection de changements, qui représente une tâche associée à un bas niveau de sémantique (détection de changements génériques), constitue donc un prérequis pour de nombreuses tâches de niveau sémantique plus élevé (e.g. interprétation, classification des changements). Par conséquent, le problème de la détection de changements présente un intérêt considérable dans le cadre de l’analyse de données vidéo.

Table des matières

Chapitre 1 – Introduction
1.1 Positionnement du problème
1.1.1 Contexte opérationnel
1.1.2 Difficultés d’analyse
1.1.3 Potentiel d’une approche semi-automatique
1.2 Problème de la détection de changements
1.2.1 Problématique générale
1.2.2 Catégories de changements
1.2.3 Hypothèses de travail
1.3 Travaux réalisés
1.3.1 Organisation de l’exposé
1.3.2 Contributions
Chapitre 2 – État de l’art
2.1 Taxonomie des techniques de détection de changements
2.2 Constitution d’une référence pour une image donnée
2.3 Gestion des sources de variabilité non pertinentes
2.3.1 Effets géométriques
2.3.2 Variations d’illumination
2.3.3 Autres sources de variabilité
2.4 Comparaison d’une observation avec une référence
2.5 Affinage des résultats de détection de changements
2.6 Évaluation des algorithmes de détection de changements
2.7 Motivations
Chapitre 3 – Pré-traitement des données
3.1 Géo-localisation des vidéos aériennes
3.1.1 Calibration et interpolation des paramètres d’acquisition
3.1.2 Asservissement visuel des paramètres d’acquisition
3.2 Invariance aux variations de l’illumination
3.2.1 Représentations invariantes
3.2.2 Invariance via les coordonnées chromatiques classiques
3.2.3 Invariance via les coordonnées chromatiques logarithmiques
3.2.4 Invariance via les coordonnées chromatiques L1L2L3
Chapitre 4 – Détection de changements
4.1 Approche bi-dimensionnelle
4.2 Base de données tri-dimensionnelle
4.2.1 Indexation spatiale des données
4.2.2 Requêtes spatiales dans les données indexées
4.3 Modélisation des apparences
4.3.1 Modèle par gaussienne unique
4.3.2 Modèle par mélange de gaussiennes
4.3.3 Analyse incrémentale en composantes principales
4.3.4 Détection effective des changements
Chapitre 5 – Consolidation des détections
5.1 Consolidation temporelle
5.1.1 Lissage temporel du score de détection
5.1.2 Optimisation de la cohérence spatio-temporelle
5.1.3 Lissage temporel hybride
5.2 Binarisation des scores de détection
5.3 Retour interactif de pertinence
5.3.1 Principe de fonctionnement
5.3.2 Descripteur de régions
5.3.3 Classification des régions
5.4 Bilan
Chapitre 6 – Conclusion