Bref historique du développement des bases de données et systèmes de reconnaissance d’expressions faciales

Sources d’information de l’émotion

Par le biais de la vision par ordinateur et de l’apprentissage machine plusieurs modeles de detection et de reconnaissance des emotions ont ete proposes, selon differentes representations, mais egalement via differents mediums pour la recolte de donnees statistiques. En plus des expressions faciales, d’autres elements physiques et physiologiques de l’etre humain font egalement l’objet d’etudes pour la detection et la transcription de l’information emotionnelle. Le Tableau 1.1 ci-apres liste les elements physiologiques associes a leurs moyens techniques pour leur detection. Parmi l’ensemble de ces mesures physiologiques, les expressions faciales presentent plusieurs avantages majeurs. D’une part elles presentent un moyen non-intrusif de mesures puisqu’elles sont relevees a distance par l’intermediaire d’une camera et ne necessitent donc pas de contact direct avec les sujets, de plus les moyens techniques mis en oeuvre sont a bas cout, puisque seule une camera bon marche est necessaire pour la recolte de donnees. D’autres part, il a ete montre que les expressions faciales representaient une source particulierement abondante d’informations pour la communication des emotions (Darwin, 2013) (Tian et al., 2001). De ce fait les expressions faciales constituent le signal le plus efficace et universel pour les etres humains pour partager leurs etats emotionnels et leurs intentions. De ce fait les expressions faciales constituent le signal le plus efficace et universel pour les etres humains pour partager leurs etats emotionnels et leurs intentions.

Bref historique du développement des bases de données et systèmes de reconnaissance d’expressions faciales Tout d’abord, on differencie deux classes de systemes pour la conception de modeles de reconnaissance d’emotions : methodes statiques et methodes dynamiques. A ses origines, la recherche s’est majoritairement focalisee sur une methode statique, qui consistait a etudier les variations des textures de l’image ou la geometrie de points particuliers du visage. A cette methode dite ≪ statique ≫ s’oppose la methode ≪ dynamique ≫ qui s’interesse quant a elle a la relation temporelle existant entre chaque element d’une sequence d’images. De plus, ces modeles reposaient majoritairement sur une representation discrete de l’emotion, regroupant les differents etats emotionnels en categories (generalement les classes d’expressions universelles (Ekman & Friesen, 1971). L’analyse des expressions faciales consistant ensuite a definir un espace de representations de caracteristiques du visage pouvant etre associe a un etat emotionnel.

Pour cela les methodes traditionnelles etaient artisanales et se reposaient sur des techniques comme les motifs binaires locaux ou Local Binary Pattern (LBP) et ses variantes LBP-TOP (Shan et al., 2009; Liu et al., 2014), Volume Local Binay Pattern (VLBP) (Zhao & Pietikainen, 2007b) ou encore Nonnegative Matrix Factorization (NMF) (Zhi et al., 2011), le ≪ sparse learning ≫ (Zhong et al., 2012) ou les descripteurs SIFT (Lowe, 1999). Cependant, la mise en oeuvre de ces methodes, numeriquement lourdes en calcul et peu fiables en conditions reelles, ont ete remise en question notamment grace au developpement de larges bases de donnees et de l’apprentissage profond. Depuis les annees 2010, cette avancee dans le domaine a permis de concevoir des espaces de representation du visage plus complexes et permis une plus forte capacite de generalisation des modeles, directement a partir de la distribution de donnees. En effet, disposer de suffisamment de donnees est devenu une etape importante dans la conception de systemes de reconnaissance d’emotions, afin de beneficier de l’entrainement de systeme d’apprentissage profond.

Disposer de donnees recoltees en conditions reelles, soit dans des environnements non contraints, et ce de maniere opposee au contexte controle et simule du laboratoire, est devenu par ailleurs un critere essentiel dans le developpement de tel systeme, en particulier pour ameliorer leur robustesse et leur fiabilite. Les bases de donnees telles que CK+ (Tian et al., 2001), MMI (Sagonas et al., 2015), TFD (Susskind et al., 2010) sont typiquement constituees d’images et sequences simulees en laboratoire pour lesquels un label a ete attribues suivant six, voire sept categories d’emotions. Plus recemment, les bases de donnees comme FER2013 (Goodfellow et al., 2013), AFEW (Dhall et al., 2011a), RAFDB (Li et al., 2017) ou AffectNet (Mollahosseini & Mahoor, 2019) ont permis d’engranger de plus grandes quantites d’images et sequences prises en conditions reelles et de natures plus complexes. La Figure 1.3 developpe la chronologie des datasets utilises avec les algorithmes associes. Li & Deng (2018) ont fourni une analyse plus detaillee des ensembles de donnees evoques precedemment que nous avons resume par le Tableau 1.2

Un autre critere important du developpement de nouvelles bases de donnees pour la reconnaissance d’emotions, est la croissance de sources de donnees comme Internet ou de contenu multimedia comme les films amateurs ou professionnels mis a disposition pour la recherche. La recolte de donnees a donc pu etre realisee notamment grace a la puissance de moteurs de recherche et de methodes de production participative ou ≪ crowd sourcing ≫. Par exemple les bases de donnees RAF-DB et AffectNet ont utilises un certain nombre de mots cles afin de reunir une quantite d’images suffisantes presentant l’expression d’un certain affecte. De plus, la base de donnees SEWA-DB a ete etablie grace a plusieurs volontaires participants a une experience collective. Cette experience demandait aux sujets de se mettre mutuellement en scene afin de partager leurs emotions. Enfin, la plupart des systemes de reconnaissance d’emotions a l’heure actuelle fonctionnant en mode supervise, c’est-a-dire que chaque source de donnee est associee a une annotation vers laquelle le systeme doit idealement identifier et faire correspondre la source.

Il est necessaire d’attribuer un niveau suffisant de confiance dans ces annotations, principalement afin d’ameliorer la convergence de ces systemes. C’est pourquoi les methodes de production participatives permettent de faire intervenir un grand nombre d’annotateurs et de minimiser les biais d’annotations des donnees et finalement obtenir une meilleure generalisation. Puisque plusieurs personnes interviennent dans l’annotation des donnees, il est necessaire de definir des techniques d’attribution d’une seule et unique annotation pour chaque donnee, pour cela des techniques comme le calcul de moyennes ou le vote majoritaire sont employees. La detection d’expressions faciales spontanees dans la nature reste un sujet complexe qui releve de nombreuses variables. Dependamment de differents biais d’identite, tels que le genre, l’age, la culture, les origines ethniques, mais aussi de la qualite de la source (illumination, orientation du visage, contexte, occlusions), les systemes doivent pouvoir traiter une grande variabilite de donnees soumises a differentes sources de bruit que memes les sciences humaines et cognitives peinent a analyser.

Normalisation

Les principaux problemes poses par les donnees recoltees dans des conditions naturelles (non contraintes) sont les variations d’illuminations et de poses de la tete qui ne sont pas pertinentes pour la detection de l’emotion et au contraire la complexifie. Pour ce faire, il est parfois necessaire d’appliquer des techniques de normalisation. Shin et al. (2016) ont utilise plusieurs techniques telles que la diffusion anisotrope, la transformation en cosinus discrete, et la difference de Gaussiennes. La difference de Gaussiennes consiste a soustraire deux versions floutees de la meme image par application d’un filtre Gaussien. Ceci revient a appliquer un filtre passebande sur l’image pour ne garder qu’un certain domaine de frequences spatiales. La difference de Gaussienne est aussi utilisee pour ameliorer la visibilite des contours et ainsi la nettete de l’image. Cette derniere technique complete particulierement bien la diffusion anisotrope qui a pour effet d’homogeneiser la temperature de l’image comme la diffusion thermique en physique et qui a tendance a flouter les contours des objets. La transformation en cosinus discrete quant a elle a plutot tendance a concentrer les basses frequences de l’image et a eliminer ainsi les zones de l’image presentant une trop forte illumination.

Augmenter le contraste de l’image peut aussi s’averer important afin de mieux differencier le fond du visage, pour ce faire les techniques de normalisation peuvent etre associees a l’egalisation d’histogramme (Pitaloka et al., 2017). Enfin, en plus de l’illumination, la pose de la tete pouvant variee suivant la position de la prise de vue, peut representer un probleme du moment que certaines zones du visage ne sont pas directement visibles. Idealement le visage doit etre vu de face afin d’avoir un maximum d’information en une seule prise de vue. Initialement, la frontalisation du visage se fait en projetant les points particuliers dans un nouvel espace (Sagonas et al., 2015). Plus recemment, l’utilisation de l’apprentissage machine pour generer de nouvelles images promet de meilleures performances, comme avec les architectures de type Generative Adversarial Networks (GAN) (Sagonas et al., 2015), (Huang et al., 2017), (L. Tran & Liu, 2017). Les Reseaux Antagonistes Generatifs (GAN) sont des generateurs d’images ou deux reseaux de neurones sont mis en competition dans un mode non supervise. Un des reseaux (generateur) aura pour tache de creer de nouvelles images, quand l’autre (discriminateur) devra determiner si l’image de sortie est reel ou le produit du modele.

Table des matières

INTRODUCTION
CHAPITRE 1 REVUE DE LITTÉRATURE
1.1 Sources d’information de l’émotion
1.2 Modèles de représentation de l’émotion
1.2.1 Modèles en catégories
1.2.2 Modèles dimensionnels et FACS
1.3 Bref historique du développement des bases de données et systèmes de reconnaissance d’expressions faciales
1.4 Chaîne de processus pour la détection de l’émotion
1.5 Pré-traitement des données
1.5.1 Algorithmes d’alignement des visages
1.5.2 Normalisation
1.5.3 Augmentation de données
1.6 Méthodes d’apprentissage machine
1.6.1 Généralités
1.6.2 Machine à Vecteur de Support (SVM)
1.6.3 Introduction aux réseaux de neurones
1.6.4 Réseaux de Neurones à Convolutions (CNN)
1.6.5 Architecture de type VGG
1.6.6 Réseaux Multimodaux
1.7 Méthodes de Description Spatio-Temporelle de l’information
1.7.1 Généralités
1.7.2 Étude séquentielle de trames par fusion des caractéristiques
1.7.3 Réseaux de Neurones Récurrents (RNN)
1.7.4 Réseaux en Cascade
1.7.5 3D-CNN / i3D
1.7.6 Réseaux de neurones à convolutions temporelles (TCN)
1.8 Transfert d’apprentissage
1.8.1 Transfert d’apprentissage : concept essentiel de l’apprentissage profond
1.8.2 Formalisation mathématique du transfert d’apprentissage
1.8.3 VGG-Face pour le transfert d’apprentissage
1.9 Apprentissage par instance multiples (MIL)
1.10 Reconnaissance de l’émotion avec représentations dimensionnelles
1.10.1 Résumé
CHAPITRE 2 MÉTHODOLOGIE
2.1 Présentation de l’approche
2.2 Transfert d’apprentissage avec VGG-Face, RAF-DB et ImageNet
2.2.1 Notions importantes du transfert d’apprentissage
2.2.2 Protocole de pré-entraînement de modèles à convolutions 2D
2.3 Pré-traitement
2.3.1 Extraction d’images à partir de séquences vidéos .
2.3.2 Extraction des visages
2.3.3 Découpage séquentiel des vidéos et fusion des annotations
2.3.4 Augmentation de données
2.4 Représentations spatio-temporelles de l’émotion
2.4.1 Architecture CNN-LSTM
2.4.2 Architecture 3D-CNN
2.4.3 Complexité des architectures CNN-LSTM et 3D-CNN
2.4.4 Modèles 2D-CNN de référence utilisé pour l’expansion 3D
2.4.4.1 Architecture type VGG
2.4.4.2 Architecture type ResNet
2.4.5 Expansion de modèles 2D à 3D
2.4.5.1 Centrage vs recopiage des poids
2.4.6 Ancrage des poids 2D (masking)
2.4.7 Dilution temporelle
2.5 Prédiction de l’émotion par régression
2.5.1 Multiplication des annotations
2.5.2 Méthode d’optimisation de l’apprentissage machine
2.6 Post-Traitement
2.6.1 Normalisation d’échelle
2.6.2 Filtrage par la moyenne
2.6.3 Délai de compensation
2.7 Résumé
CHAPITRE 3 RÉSULTATS EXPÉRIMENTAUX
3.1 Bases de données
3.1.1 Ensembles pour le pré-entraînement
3.1.2 Ensemble de données SEWA-DB
3.2 Métriques de performance
3.2.1 Coefficient de corrélation de Pearson
3.2.2 Coefficient de corrélation de Lin
3.2.3 Erreur Absolue Moyenne (MAE) & Pourcentage d’Erreur Absolue Moyenne (PEAM)
3.3 Performances des modèles 2D sur RAF-DB
3.4 Modèles CNN-LSTM
3.4.1 Paramètres expérimentaux
3.4.2 Performances des modèles
3.4.3 Conclusion Préliminaire
3.5 Modèles 3D-CNN
3.5.1 Paramètre d’études
3.5.2 Performances générales des architectures
3.5.3 Performances détaillées selon certains paramètres d’études
3.5.4 Analyse graphique des filtres de convolutions
3.6 Analyse critique des résultats et comparaison avec la littérature
CONCLUSION ET RECOMMANDATIONS
BIBLIOGRAPHIE