Reconnaissance de formes et suivi de mouvements en 4D temps-réel

Capteurs à lumière structurée

La dernière technologie que nous présentons est celle que nous avons majoritairement utilisé lors de nos expérimentations. Les capteurs à lumière structurée, appartenant à la famille des capteurs actifs, mesurent la distance en analysant la déformation d’un motif projeté sur la scène. Ce motif peut être visible à l’œil nu ou appartenir au domaine du proche infrarouge. Les capteurs 3D récents à lumière structurée sont composés d’un projecteur infrarouge, d’un récepteur infrarouge et éventuellement d’un capteur couleur classique. Le projecteur projette un motif sur la scène et le récepteur fournit une image contenant le motif observé depuis sa position. Selon les déformations constatées, la distance peut être estimée rapidement. Dans le cas où un capteur couleur est également disponible, une calibration (similaire à celle des systèmes stéréoscopiques) permet de connaitre la correspondance entre les pixels des images couleur et de profondeur . L’avantage de ce type de capteur est que la distance peut être estimée rapidement. Les résolutions sont généralement plus élevées que celles des capteurs à temps de vol. Le coût de ces capteurs est faible et leur développement en pleine expansion puisque de nouveaux modèles sont fréquemment proposés. En revanche, cette technologie fonctionne mal en extérieur et sur certaines surfaces (sur les vitres ou sur des surfaces spéculaires par exemple).

Capteurs à temps de vol

Les capteurs à temps de vol appartiennent à la famille des capteurs dits actifs. La mesure de la profondeur est basée sur le temps mis par une impulsion lumineuse à parcourir le trajet du capteur vers la surface de l’objet. Cette catégorie de capteur effectue la mesure de la distance simultanément sur tous les pixels de l’image, contrairement à d’autres capteurs (lasers) procédant par balayage. Le procédé de mesure ne fonctionne pas en extérieur à cause de la lumière naturelle du soleil et sur certaines surfaces comme par exemple le verre. Les capteurs à temps de vol sont composés au minimum d’un emmetteur et d’un récepteur lumineux. Certains sont également équipés d’une caméra couleur classique. La mesure de la distance est basée sur un principe simple. Une source lumineuse emmet des pulses de lumière sur la scène à intervalles de temps constants. La fréquence d’envoi des impulsions est très rapide. Généralement, le signal appartient au domaine du proche infrarouge et est donc invisible à l’œil nu. La distance à l’objet est directement proportionnelle au temps nécessaire au signal pour effectuer un aller retour.

Volume d’intérêt 3D

Dans certaines situations, il peut être utile de ne considérer pour le traitement que les données appartenant à une certaine zone de l’espace. Cette zone peut être définie par rapport au capteur lui même ou par rapport à un élément de la scène. L’utilisation d’un volume d’intérêt 3D permet de sélectionner un sous ensemble de points parmi le nuage complet. Une partie des données est alors directement écartée de la suite des traitements. Ce procédé peut s’avérer très efficace lorsque le cadre d’application le permet. La technique décrite dans cette partie a été mise au point pendant la thèse et n’a, à notre connaissance, pas fait l’objet de publications.
Le cas le plus simple est celui où la zone d’intérêt est définie par un seuillage de l’image de profondeur. Il est très facile d’isoler les points dont la distance au capteur appartient à une plage de valeurs [zmin, zmax]. Il suffit pour cela de parcourir l’image de profondeur et de tester tous les pixels. Le seuillage d’une image est une opération rapide.

Extraction de primitives

La détection de formes simples dans un nuage de points n’est pas un problème simple. La base de nombreux algorithmes consiste à détecter des sphères, des cylindres, des plans, ou d’autres primitives géométriques. L’extraction de ces formes est une étape du processus de segmentation et de compréhension de la composition de la scène observée. Les méthodes existantes peuvent être classées en deux catégories.
La première consiste à effectuer une première segmentation des données (avec une méthode décrite dans cette partie par exemple). Les points sont préalablement groupés en classes avant qu’un modèle leur soit ajusté. L’erreur d’ajustement commise est une quantification de la bonne ou mauvaise modélisation des données. On se demande si les points d’une classe peuvent être modélisés par une primitive donnée.
La seconde approche consiste à rechercher une forme directement dans le nuage de points complet. Les formes sont recherchées dans le nuage de points tout entier sans segmentation préalable. Pour cela, deux méthodes majeures sont employées. La transformée de Hough, opérant dans l’espace des paramètres, permet d’estimer les vecteurs de paramètres des formes présentes. Le paradigme RANSAC est un processus itératif ne permettant d’assurer la bonne détection qu’avec une certaine probabilité puisqu’elle fait intervenir un tirage aléatoire. RANSAC est très utilisé pour sa robustesse aux points abbérants (dits outliers).
Les formes considérées dans cette partie sont des formes géométriques simples, même si certaines méthodes ont été adaptées à des objets quelconques. Les deux types d’approches ont chacune leurs forces et leurs faiblesses. Nous présenterons les méthodes de type moindres carrés dans un premier paragraphe tandis que les deux suivants décriront les méthodes de type transformée de Hough et RANSAC.

Choix automatique du nombre de composantes

Dans cette section, nous traitons le problème du choix du nombre de composantes K du modèle de mélange. En pratique, la valeur de ce paramètre n’est pas connue à priori et doit être estimée en plus des paramètres des différentes classes. Dans notre cas, le nombre de classes dépend du nombre de personnes présentes dans la scène et de leur posture.
D’une part, le système de détection de têtes doit être le plus automatique possible. L’algorithme doit donc être capable de choisir automatiquement le bon nombre de composantes K. D’autre part, la valeur de ce paramètre conditionne le succès de l’algorithme entier. En effet, si aucune sphère ne modélise les points correspondant à une tête, cette dernière ne pourra être correctement détectée. A l’inverse, si une tête est sur-segmentée par plusieurs sphères, les données sont partagées en plusieurs classes et la détection échouera. L’objectif est donc de choisir convenablement et automatiquement le paramètre K de telle manière que les têtes soient chacune modélisées par une seule sphère.

Table des matières

Introduction générale
I Détection et suivi de personnes à l’aide de capteurs 3D
1 Utilisation de capteurs 3D en vidéo-surveillance et traitement de données 2.5D et 3D
1.1 Introduction
1.2 Acquisition de données tridimensionnelles
1.2.1 Systèmes stéréoscopiques
1.2.2 Capteurs à temps de vol
1.2.3 Capteurs à lumière structurée
1.3 Traitement de données tridimensionnelles
1.3.1 Calcul du nuage de points 3D
1.3.2 Filtrage des données
1.3.2.1 Suppression des points aberrants
1.3.2.2 Filtrage bilatéral
1.3.3 Segmentation de données 2.5D
1.3.3.1 Soustraction de fond
1.3.3.2 Volume d’intérêt 3D
1.3.4 Méthodes de croissance de régions
1.3.5 Extraction de primitives
1.3.6 Changement de repère
1.4 Conclusion
2 Un algorithme automatique de détection et de suivi de personnes à partir d’une séquence
d’images de profondeur
2.1 Introduction
2.2 Pré-traitement de l’image de profondeur
2.3 Détection et suivi de personnes dans des images de profondeur
2.3.1 Segmentation des têtes
2.3.2 Suivi des personnes
2.4 Expérimentations
2.5 Conclusion
II Segmentation et modélisation d’un nuage de points 3D à l’aide de nouveaux modèles de mélange pour la détection de têtes
3 Segmentation et modélisation d’un nuage de points 3D par un modèle de mélange sphérique
3.1 Introduction
3.2 Distributions elliptiques
3.2.1 Définitions et caractérisations
3.2.2 Propriétés
3.3 Construction d’un modèle adapté aux données provenant du capteur 3D
3.3.1 Introduction d’une nouvelle densité sphérique
3.3.2 Propriétés
3.3.3 Modèle de mélange
3.4 Estimation des paramètres du modèle
3.4.1 Estimation du modèle à une seule composante
3.4.2 Estimation du modèle de mélange
3.4.2.1 Méthode du maximum de vraisemblance
3.4.2.2 Algorithme Espérance-Maximisation appliqué aux modèles de mélange
3.4.2.3 Application au cas sphérique
3.5 Expérimentations sur des données simulées
3.5.1 Résultats dans le cas de la sphère complète
3.5.2 Résultats dans le cas de la demi-sphère
3.5.3 Résultats dans le cas de plusieurs composantes
3.6 Expérimentations sur des données réelles
3.6.1 Nombre de composantes connu
3.6.2 Nombre de composantes inconnu
3.7 Conclusion
A Calcul de la constante de normalisation de la densité
B Preuve du Théorème 3.3.2
C Résultats de convergence
D Maximisation de la log-vraisemblance complétée
E Méthode de simulation de la nouvelle loi
E1 Méthode de rejet
E2 Méthode de la transformée inverse
E3 Application à la nouvelle densité
4 Détection et modélisation de têtes dans un nuage de points 3D
4.1 Introduction
4.2 Méthode de détection de têtes dans un nuage de points 3D
4.2.1 Algorithme global
4.2.2 Règles de détection des têtes
4.3 Choix automatique du nombre de composantes
4.3.1 État de l’art
4.3.1.1 Test du ratio de vraisemblance
4.3.1.2 Sélection de modèles et critères d’information
4.3.1.3 Choix dynamique
4.3.2 Choix automatique du nombre de composantes du modèle de mélange sphériqu
4.4 Accélération de la méthode d’estimation
4.4.1 Accélération de l’algorithme EM
4.4.1.1 État de l’art des méthodes d’accélération existantes
4.4.1.2 Application à l’estimation du modèle de mélange sphérique
4.4.2 Parallélisation de l’algorithme EM
4.4.2.1 Parallélisation des étapes E et M
4.4.2.2 Application à l’estimation du modèle de mélange sphérique
4.4.3 Initialisation efficace de l’étape M
4.5 Expérimentations sur des données réelles
4.6 Conclusion
5 Généralisation au modèle de mélange ellipsoïdal
5.1 Introduction
5.2 Présentation du modèle de mélange ellipsoïdal
5.2.1 Introduction de la nouvelle densité de probabilité
5.2.2 Propriétés
5.2.3 Modèle de mélange
5.3 Estimation des paramètres du modèle
5.3.1 Estimation des paramètres dans le cas du n-échantillon
5.3.1.1 Estimation directe des paramètres
5.3.1.2 Estimation par un algorithme de type Backfitting
5.3.2 Estimation du modèle de mélange
5.4 Expérimentations sur des données simulées
5.4.1 Résultats dans le cas d’un modèle à une seule composante
5.4.2 Résultats dans le cas d’un modèle à plusieurs composantes
5.5 Expérimentations sur des données réelles
5.6 Conclusion
A Calcul de la constante de normalisation de la densité
B Maximisation de la log-vraisemblance complétée
C Preuve de la convergence de σ2n
D Méthode de simulation de la nouvelle loi
III Restauration d’images de profondeur présentant des fortes variations par des splines d’interpolation
6 Rappels et notations
6.1 Analyse fonctionnelle
6.2 Eléments finis
6.2.1 Eléments finis généraux
6.2.1.1 Espaces de polynômes
6.2.1.2 Eléments finis simpliciaux et parallélotopes
6.2.1.3 Construction d’un maillage
6.2.2 Eléments finis de Lagrange
6.2.3 Eléments finis de Hermite
6.2.4 Eléments finis de Bogner-Fox-Schmit
6.3 Approximation de surfaces
6.3.1 Splines d’interpolation
6.3.2 Splines d’ajustement
6.3.3 Approximation par Dm-splines
7 Restauration d’images de profondeur par des splines d’interpolation
7.1 Introduction
7.2 Principe général de la méthode d’approximation
7.2.1 Changements d’échelle
7.2.2 Notations et hypothèses
7.3 Construction des changements d’échelle
7.3.1 Résultats préliminaires pour les familles de changements d’échelle
7.3.2 Construction des changements d’échelle)
7.4 Dm-spline d’interpolation
7.5 Expérimentations
7.6 Conclusion
A Convergence de la méthode d’approximation
Conclusion et perspectives
Liste des publications et communications
Bibliographie