Application des filtres particulaires pour la caractérisation des gestes : amélioration du suivi avec les flots optiques 

Problématique de la reconnaissance de gestes

La reconnaissance de gestes est une tâche d’identification des données gestuelles. Dans le cas de  la reconnaissance de discours gestuels, qui sont des ensembles articulés de gestes, la reconnaissance combine deux tâches : la segmentation et la classification. Comme l’affirme Sayre [121], la segmentation et la classification sont deux tâches qui doivent être réalisées simultanément. La tâche de segmentation doit déterminer les limites des gestes sur la séquence. La tâche de classification doit attribuer à chaque sous-séquence une étiquette appartenant à un vocabulaire de gestes donné. La tâche de classification doit intégrer également des connaissances a priori sur les données telles que le vocabulaire des gestes, les durées des gestes, l’environnement d’enregistrement, etc. La difficulté principale que comporte l’étape de segmentation est la variabilité de la durée des instances d’un même geste. L’étape de classification est sujette à la variabilité des caractéristiques des instances d’un même geste. Un geste est un ensemble de mouvements effectués essentiellement avec les mains. Il peut être représenté dans un espace simplifié tridimensionnel constitué de sa projection bidimensionnelle et de sa variation dans le temps. La problématique principale qui se pose par conséquent est la modélisation de cette variation tridimensionnelle et quel est le système capable de reconnaître ce type de données en prenant en compte tous les paramètres spatiotemporels.
Les durées des instances d’un geste ne sont pas nécessairement identiques.
Cet variabilité est due principalement au changement de vitesse de réalisation du geste par une même personne ou par des personnes différentes. Ainsi, le système de reconnaissance doit être capable de modéliser cette élasticité et d’identifier le geste en dépit de la variation de durée de ses instances.
Outre la robustesse à l’élasticité des instances du geste, le système de reconnaissance doit également être robuste aux variabilités liées à l’environnement d’enregistrement. En effet, les conditions d’enregistrement ne sont généralement pas identiques entre deux séquences représentant le même geste. Nous pouvons ainsi observer des changements de luminosité, des fonds variables contenant plusieurs couleurs ou plusieurs objets et des vêtements aux formes et aux couleurs variables.
Ainsi, le système de reconnaissance doit gérer ces variabilités à travers une caractérisation robuste du geste. Si les instances des caractéristiques du même geste présentent un changement remarquable entre deux vidéos, il devient difficile pour le système de reconnaissance d’identifier le même geste sur les deux vidéos. Ces caractéristiques doivent ainsi minimiser la variabilité intra-classes et maximiser la variabilité inter-classes.
Parmi les techniques de modélisation des données séquentielles aidant à résoudre ces difficultés nous utilisons les méthodes statistiques markoviennes que nous allons présenter dans la section suivante.

Introduction générale sur les méthodes de suivi

La reconnaissance des gestes nécessite une étape de caractérisation. La caractérisation des gestes est réalisable avec les techniques de suivi des gestes qui sont en général les techniques de suivi des objets. En effet, un geste est généré principalement par le mouvement et la forme des mains. Les trajectoires des mains peuvent ainsi suffire à décrire le geste. Pour extraire la trajectoire des mains, il faut recourir aux techniques de suivi des objets mobiles. Selon Klein [71], il existe trois catégories de méthodes de suivi : les méthodes d’optimisation d’une grandeur scalaire, les méthodes d’appariement de détection et les méthodes probabilistes.
Les méthodes d’optimisation d’une grandeur scalaire, telles que les méthodes de « template matching » [58], repose sur la minimisation ou la maximisation d’une fonction à valeur dans R qui présente la correspondance entre un modèle de l’objet et une observation extraite de l’image. Cette fonction peut être représentée par une distance [32], une corrélation [137], une énergie [40], une erreur [50] ou un coût [122].
Les méthodes d’appariement de détection [67, 124, 24, 34, 47, 117], comme la méthode MHT (« Multiple Hypothesis Tracking ») [112], reposent sur le principe de correspondance entre des régions détectées de l’objet dans l’image à l’instant t − 1 et des régions candidates à l’image t.
Les méthodes probabilistes de suivi cherchent la position la plus probable de l’objet suivi dans l’image actuelle à travers le calcul d’une probabilité conditionnelle dépendant de l’historique du déplacement de l’objet et des observations extraites. Dans ses travaux de thèse [71], Klein classifie les méthodes probabilistes de suivi en deux catégories : les méthodes probabilistes à base de filtrage optimal [7, 6] et les méthodes probabilistes à base d’apprentissage de modèle [37, 64].
Les méthodes probabilistes basées sur le filtrage optimal sont représentées par deux méthodes ; les filtres de Kalman [66, 98] et les filtres particulaires [49, 70, 60].
Les méthodes de filtrage optimal calculent une estimation de la position de l’objet suivi avec une modélisation gaussienne pour les filtres de Kalman et un échantillonnage de type Monte Carlo pour les filtres particulaires.
Dans le cadre du suivi des gestes, un geste est souvent caractérisé par des mouvements rapides et irréguliers des mains. Ainsi, le suivi des mains dans un geste nécessite une méthode non-déterministe fournissant une modélisation flexible du mouvement. Étant données que les méthodes d’optimisation d’une grandeur scalaire sont des méthodes déterministes, elles ne sont donc pas adaptées pour suivre les mouvements rapides de la cible. D’autre part, les méthodes d’appariement de détection requièrent en général une étape de segmentation robuste qui peut nécessiter, selon la méthode de segmentation, une étape d’apprentissage. Il est connu que l’apprentissage augmente la complexité de la méthode et nécessite une base d’apprentissage étiquetée dont la construction est en générale coûteuse, particulièrement dans le cas d’étiquetage de positions d’objets dans des vidéos.
Ainsi, les méthodes probabilistes semblent mieux adaptées au suivi des gestes.
Ces méthodes sont non-déterministes et ne nécessitent pas une étape d’apprentissage. Comme nous nous intéressons aux modèles markoviens, nous orientons notre étude vers les méthodes probabilistes de filtrage optimal qui intègrent le principe Markovien. Comme l’estimation de la position de la cible avec les filtres particulaires est réalisée avec un processus d’échantillonnage, la modélisation du déplacement de la cible est davantage flexible avec les filtres particulaires. Les filtres de Kalman restreignent cette approximation au modèle gaussien. Ainsi, les filtres particulaires semblent les plus adaptés au suivi des gestes.
Nous présenterons dans le chapitre 3, notre application des filtres particulaires pour le suivi de la main dominante dans la langue des signes. Dans ce chapitre 2, nous présentons en premier lieu le principe des méthodes de filtrage optimal (section 2.2). Ensuite, nous détaillons le principe des filtres particulaires, leurs varaintes et certaines de leurs applications dans le cadre du suivi des gestes (section 2.3). Nous donnons un aperçu sur le principe des filtres de Kalman dans l’annexe A (section A.1). D’autre part, le processus des filtres particulaires nécessite une composante de caractérisation de la cible. Nous donnons ainsi, dans la section 2.5, un aperçu sur l’état de l’art de la caractérisation des objets. Nous terminerons ce chapitre par la présentation des difficultés caractérisant l’évaluation des performances des systèmes de suivi (section 2.6).

Descripteurs issus de la couleur

Nous présentons dans cette sous-section trois descripteurs de couleur : les histogrammes de couleur, un indicateur de couleur globale calculé avec des moyennes et des variances et une proportion de couleur dans la fenêtre d’observation.
La couleur décrite avec ces descripteurs est la couleur de la peau de la main.
Pour mieux représenter cette couleur, nous avons choisi l’espace de représentation de couleur HSV. Comme nous l’avons mentionné dans la sous-section 2.5.1 du chapitre précédent, il a été montré que dans l’espace de couleur HSV l’information de couleur est mieux reproduite [157]. Il a été également montré que cet espace est discriminant entre la couleur de la peau et le fond et comprend deux composantes (hue et saturation) robustes aux changements de luminosité [125].
L’espace de couleur HSV (Hue Saturation Value) est un espace à coordonnées cylindriques comme illustré dans la figure 3.4 1 . La composante hue définit la teinte de la couleur de l’objet, codée suivant l’angle qui lui correspond sur le cercle des couleurs. Ses valeurs varient entre 0 ◦ et 360 ◦ . Les composantes value et saturation représentent respectivement un pourcentage d’intensité de couleur et de brillance de couleur.

Applications

Les MMC et leurs variantes sont exploités dans les domaines du traitement du signal et de la modélisation de séquences. Ils sont largement utilisés pour la reconnaissance de la parole [109], la reconnaissance de l’écriture [90], la modélisation des séquences biologiques [95]… Ils sont également appliqués dans le domaine de la reconnaissance de gestes [141, 142, 101, 136, 5, 102, 130, 120, 52, 8].
Une large communauté de chercheurs étudiant la reconnaissance de gestes se spécialise dans l’étude de la langue des signes. Par exemple Vogler et al. [141], Agris et al. [142] et Ong et al. [101] ont conçu un modèle de MMC parallèles pour la reconnaissance des phrases signées. Ils ont pour cela distingué des descripteurs des gestes, tels que la position, l’orientation et la distance comme expliqué dans la figure 4.3, afin de faciliter le processus d’apprentissage des MMC et optimiser l’exploitation de ces descripteurs. Cette décomposition se manifeste par la génération d’un MMC pour chaque type de descripteur et pour chaque unité élémentaire (une sous-unité du signe).
Les MMC ont été également exploités pour la réalisation d’un système de reconnaissance avec un nombre très réduit d’exemples d’apprentissage [73, 62, 146, 153].
Cela permet de remédier au problème de manque de données qui est un problème capital dans le domaine de l’apprentissage artificiel. Konecny [73] et al., Jackson [62] et Weiss [146] ont proposé un modèle MMC global de reconnaissance de séquences de gestes (figure 4.4) en utilisant des bases d’apprentissage mono-exemple.
Ce modèle global est sous la forme d’un ensemble de MMC « gauche droite » interconnectés modélisant chacun un geste. De chaque état de chaque MMC, il est possible de transiter vers l’étatlui-même ou vers un état postérieur interne ou externe. Dans la version proposée par Jackson [62], chaque trame du geste est modélisée par un état. La figure 4.4 montre que ce modèle est complexe à cause des sauts et des connexions complètes.

Avantages et inconvénients des MMC

La modélisation graphique des données avec un modèle MMC est très intéressante. Ce modèle permet de guider le système de décodage et de préserver une certaine continuité et cohérence structurelle des données. Ce modèle permet en effet d’intégrer des connaissances a priori de haut niveau telles que les règles grammaticales des données linguistiques. Un autre avantage des MMC est qu’ils ne nécessitent pas un étiquetage local des trames des données d’apprentissage grâce à leur processus d’apprentissage de type EM.
D’autre part, les modèles génératifs comme les MMC modèlisent les caractéristiques des données avec des distributions gaussiennes. Dans le cas de manque de données d’apprentissage, la modélisation devient pauvre et inadéquate ce qui présente un inconvénient principal des MMC. Cependant, les modèles discriminants peuvent remédier à ce problème. Nous présentons dans la section suivante un modèle séquentiels markovien discriminant : les CAC. Ce modèle a été proposé par
Lafferty et al. [74] en 2001. Il présente certains avantages qui peuvent remédier aux problèmes des MMC. Il présente donc des propriétés complémentaires à celles d’un MMC. Ces avantages seront détaillés dans la sous-section 4.3.6.

Les champs aléatoires conditionnels : les CAC

Les Champs Aléatoires Conditionnels (CAC) sont des modèles markoviens discriminants connus pour leur capacité de classification. Nous allons présenter dans cette section la théorie des CAC et un ensemble de leurs variantes : les semi-Markov CAC, les CAC cachés et les CAC dynamiques latents. Les semi-Markov CAC modélisent explicitement la durée de séjour dans les états du modèles comme dans le cas des semi-MMC. Les CAC cachés réalisent la cohérence structurelle des données reconnues et les CAC dynamiques latents répondent au problème de segmentation.

Synthèse et Applications

Les CAC sont une méthode de classification qui a été appliquée dans différents domaines. Feng et al. [38] l’ont appliqué pour reconnaitre les documents historiques manuscrits. Hébert et al. [57] ont appliqué également les CAC pour l’extraction de structures dans les images de documents. Cependant, dans la plupart des travaux sur les données séquentielles, notamment les travaux de reconnaissance de la langue des signes, les chercheurs ont appliqué des variantes augmentées des CAC [145, 91, 150, 151, 28, 91]. En effet, les CAC, avec leur version standard, ne sont pas capables de reconnaitre des données séquentielles conformément à un modèle structurel, tel qu’un modèle de langage. Autrement dit, ils étiquettent trame par trame les données séquentielles sans pouvoir les regrouper selon un modèle de haut niveau tel qu’un modèle de langage. D’où le recours à des variantes des CAC ajoutant cette capacité. Les variantes qui sont fréquemment utilisées pour la reconnaissance des données séquentielles sont les semi-Markov CAC [136] et les CAC cachés [145]. Les CAC cachés identifient une séquence complète par une seule étiquette. Ainsi, leur exploitation se limite à la reconnaissance des gestes isolés.
Les semi-Markov CAC étiquettent un segment de trames en ayant une vue sur le contexte de ce segment. Ainsi, ce modèle semble adéquat à la segmentation et la reconnaissance des séquences de gestes. Cependant, Kasteren et al. ont montré dans [136] que la différence de performances de reconnaissance des activités humaines n’est pas importante entre le modèle CAC et le modèle semi-Markov CAC.
De plus, Kasteren a constaté que l’étape d’apprentissage des modèles semi-Markov CAC est très longue à cause de l’étape d’estimation du facteur de normalisation du noyau CAC et de la prise en compte de toutes les possibilités de durée des segments des données. En ce qui concerne les CACDL, ces modèles étiquettent localement les trames en ayant une vue sur le contexte de la donnée de chaque trame grâce au principe du noyau CAC, et en ayant en même temps une vue globale sur la structure apprise de la donnée grâce aux états cachés. Ce modèle semble parfaitement adéquat à la reconnaissance des données séquentielles telles que les gestes mais reste couteux au niveau de l’application étant donné la complexité du modèle et le nombre élevé de paramètres à déterminer.
Nous détaillons dans la sous-section suivante, les avantages et les inconvénients de CAC.

Avantages et inconvénients des CAC

Les CAC sont des modèles discriminants. Ils ont la capacité de classer efficacement les données quelle que soit leur distribution. En effet, les modèles discriminant apprennent à discriminer les classes contrairement aux modèles génératifs, comme les MMC, qui apprennent à modéliser les classes. De plus, la décision locale des CAC dépend d’un contexte pris en compte sur toutes les observations contraire- ment aux MMC dont la dépendance est limitée à l’observation locale. Cette propriété explique l’avantage des CAC au niveau de la classification par rapport aux MMC.
Néanmoins, les CAC classiques ne sont pas conçus pour modéliser une grammaire globale ou en général une structure globale des données. Ils sont des modèles de classification locale selon un processus séquentiel. Ainsi, la connaissance de haut niveau doit être introduite en post-traitement sous forme d’une étape supplémentaire de filtrage et de segmentation de l’information pour obtenir la cohérence structurelle des données qui est souvent recherchée. En contrepartie, les MMC possèdent cette capacité de segmentation et de structuration globale des données reconnues.
Finalement, si nous comparons les avantages et les inconvénients des CAC et des MMC, nous constatons une certaine complémentarité de classification et de segmentation entre les deux modèles. Ainsi, nous proposons de combiner ces deux modèles markoviens classiques afin d’exploiter simultanément les avantages des deux modèles et compenser leurs inconvénients. Nous proposons dans le prochain chapitre un modèle hybride CAC/MMC qui réalise cette combinaison. Nous donnons dans la prochaine section un aperçu sur les modèles hybrides combinant les MMC à d’autres méthodes de classification appliqués dans différents domaines.

Table des matières

1 Introduction Générale 
1.1 Cadre général
1.2 Problématique de la reconnaissance de gestes
1.3 Modèles markoviens
1.4 Contributions
1.5 Organisation du manuscrit
I Suivi des gestes 
2 État de l’art : Modèles Markoviens de suivi 
2.1 Introduction générale sur les méthodes de suivi
2.2 Principe des méthodes probabilistes de suivi par filtrage optimal
2.3 Filtre particulaire : un modèle de suivi markovien
2.3.1 Théorie
2.3.1.1 Principe de Monte-Carlo
2.3.1.2 Échantillonnage d’importance
2.3.1.3 Estimation récursive des poids
2.3.1.4 Problème de dégénérescence
2.3.1.5 L’algorithme de ConDensAtion
2.3.2 Variantes
2.4 Applications de suivi avec les filtres particulaires
2.5 Caractérisation de la cible
2.5.1 Descripteurs de couleur et de texture
2.5.2 Descripteurs de forme
2.5.3 Descripteurs de mouvement
2.6 Difficultés d’évaluation des performances des méthodes de suivi
3 Application des filtres particulaires pour la caractérisation des gestes : amélioration du suivi avec les flots optiques 
3.1 Détermination du modèle de référence
3.2 Le modèle d’observation
3.2.1 Représentation géométrique de la cible
3.2.2 Caractérisation de la cible
3.2.2.1 Descripteurs issus de la couleur
3.2.2.2 Descripteurs issus de la forme
3.2.3 Estimation de la probabilité d’observation
3.2.3.1 Choix des distances appliquées aux descripteurs
3.2.4 Pénalisation des particules avec les flots optiques
3.3 Le modèle de mouvement des particules
3.4 Le protocole expérimental
3.4.1 Les données expérimentales
3.4.2 Les métriques d’évaluation
3.4.3 Les systèmes évalués
3.5 Résultats de suivi
II Reconnaissance et détection des gestes 
4 État de l’art : Modèles Markovien séquentiels de reconnaissance 
4.1 Introduction générale sur les méthodes de reconnaissance dynamique
4.2 Les modèles de Markov à états cachés : les MMC
4.2.1 Théorie
4.2.2 Les semi-MMC
4.2.3 Applications
4.2.4 Avantages et inconvénients des MMC
4.3 Les champs aléatoires conditionnels : les CAC
4.3.1 Théorie
4.3.2 Les semi-Markov CAC
4.3.3 Les CAC cachés
4.3.4 Les CAC dynamiques latents : les CACDL
4.3.5 Synthèse et Applications
4.3.6 Avantages et inconvénients des CAC
4.4 Les modèles hybrides combinant les MMC à des méthodes de classification
5 Un modèle hybride, les CAC/MMC, pour la reconnaissance des gestes 
5.1 Un modèle hybride de reconnaissance : les CAC/MMC
5.1.1 Avantages de la combinaison des CAC et des MMC
5.1.2 Présentation du modèle CAC/MMC
5.1.3 Architecture générale des CAC/MMC
5.1.4 Apprentissage
5.1.5 Décodage
5.2 Caractérisation globale des gestes
5.2.1 Caractérisation avec les Flots Optiques : Signature du Geste
5.2.2 Caractérisation avec les HOG
5.2.3 Les différentes variantes du vecteur de caractéristiques
5.3 Adaptation des CAC/MMC à l’apprentissage avec un seul exemple
5.3.1 Adaptation de la composante des MMC
5.3.2 Adaptation de la composante des CAC .
5.4 Protocole expérimental
5.4.1 Bases de données
5.4.2 Métriques d’évaluation
5.4.3 Outils d’implémentation .
5.5 Résultats de reconnaissance de gestes
5.5.1 Intérêt de notre modèle de caractérisation de geste : la signature du geste
5.5.2 Intérêt de la quantification des caractéristiques continues pour les CAC
5.5.3 Robustesse des CAC/MMC
5.5.3.1 Robustesse à la variation du nombre de trames par état
5.5.3.2 Robustesse à la variation de la durée du geste
5.5.3.3 Robustesse à la variation du vecteur des caractéristiques
5.5.4 Validation du système hybride CAC/MMC et son évaluation avec la plateforme ChaLearn
5.6 Vérifications statistiques
5.6.1 Le test de Kolmogorov-Smirnov
5.6.2 Le test de Student unilatéral
Conclusion Générale 
Bibliographie 
A Principe d’autres méthodes de suivi
A.1 Filtre de Kalman
A.1.1 Théorie
A.1.2 Variantes
A.2 Camshift : Continously Adaptative Mean Shift
A.2.1 Principe du Camshift
A.2.2 Principe du Mean-Shift

projet fin d'etude

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *