Le conditionnement du second ordre pour la référenciation sociale
Expressions faciales – Interaction di-adique
L’interaction homme/robot au travers des signaux émotionnels est de plus en plus étudiée. Bien que les solutions ingénieur ad-hoc exhibent des résultats impressionnants, elles ne permettent pas au système d’évoluer et de s’adapter à son environnement. Dans cette section nous présentons comment à travers un processus d’imitation en utilisant une architecture sensori-motrice simple notre robot a développée la capacité d’apprendre des expressions faciales. Un des principaux avantages de ce type d’architecture est sa versatilité et son adaptation au monde réel. Dans ce modèle l’apprentissage se fait en interaction avec un tuteur sans avoir recours à des stratégies Ad-hoc de reconnaissances. Cette capacité à reconnaître des expressions faciales est un premier schème essentiel au développement de capacité de référenciation sociale dans notre paradigme pour le développement du sens esthétique. Dans une perspective développementale nous nous sommes inspirés de la capacité du bébé à apprendre des expressions faciales sans signal de supervision (Gergely and Watson [1999] ). Plusieurs travaux de recherche se sont focalisées sur la construction de systèmes robustes pour la reconnaissance des expressions faciales. Cette capacité n’est quasiment jamais étudiée du point de vue d’une construction autonome et développementale. Dans ces travaux, l’accent est mis sur la sélection des meilleurs ensembles de caractéristiques et les performances de reconnaissance. Leurs modèles s’inspirent des algorithmes de vision par ordinateur classiques divisés par étapes. Tout d’abord, le visage est détecté dans l’image, puis il est cadré. Finalement les expressions sont apprises en base de données hors ligne. Ces méthodes utilisent des à priori forts et ils ont besoin d’accéder à toute la base d’apprentissage. Ces méthodes sont très performantes sur des bases de données déjà construites. Par contre elles sont rarement confrontés à des images réelles en milieu naturel. Ainsi, elles ne permettent pas une autonomie du robot et ses capacités de généralisation en sont amoindries. Nous utilisons, de notre coté, le même système pour apprendre des expressions faciales et des objets. La généricité du modèle nous permet d’acquérir des capacité de plus en plus complexe comme la référenciation sociale. Nous avons supposé que l’apprentissage des expressions pouvaient se passer de la détection de visage. Cette reconnaissance est vue comme une propriété émergente d’un mécanisme (jeu) de mirroring. Nous avons même démontré que la discrimination des visages résulte d’une détection de synchronisation, donc de la capacité à prédire ce que l’autre agent fait. (voir Boucenna et al. [2008] pour plus de détails). Certaines méthodes sont basées sur l’analyse en composante principale (PCA) par exemple le LLE (Locally Linear Embedding) qui réalise une réduction des vecteurs d’entrés (Liang et al. [2005]). Des architectures neuronales ont également été développées pour la reconnaissance des expressions faciales, par exemple le réseau de Franco and Treves [2001]. Ces derniers utilisent un réseau de neurones multicouches utilisant une règle d’apprentissage supervisée classique. Cependant, l’architecte du réseau détermine le nombre de neurones associés aux différentes expressions selon leur complexité. D’autres méthodes sont basées sur des modèles du visages comme par exemple les modèles d’appartenance (Abboud et al. [2004]). Yu and Bhanu [2006] utilisent un support vecteur machine (SVM) pour catégoriser les expressions. Le but étant d’obtenir les meilleurs frontières de séparation. Wiskott [1997] utilise des ondelettes de gabor pour le codage des caractéristiques faciales appelées « jets ». Ces caractéristiques sont insérées dans un graphe labellisé où les nœuds sont des « jets » et les liens entre les différents nœuds sont des distances (distances entre la bouche et un œil par exemple). La reconnaissance se traduit par une comparaison de graphe (« graphe matching »). Toutes ces techniques et beaucoup d’autres encore utilisent un apprentissage hors ligne ainsi qu’un grand nombre d’à priori pour améliorer les performances. Notons également que toutes ces méthodes accèdent à l’ensemble de la base d’apprentissage ce qui rend impossible la comparaison avec un processus développemental. Ces modèles ne peuvent pas mimer des processus biologiques par leurs manques d’adaptation aux différents environnements. Breazeal et al. [2005] a conçu Kismet, une tête robotique qui peut reconnaître des expressions faciales. Bien que Kismet apprenne à mimer les expressions à partir d’une interaction sociale, il a un fort a priori ce qu’est un visage et les caractéristiques visuelles sont prédéfinies. De plus, si un système comme celui de Breazeal est utilisé avec des objets ou des scènes, la tête expressive ne donne aucune réponse. Généraliser sur des vues jamais rencontrées parce qu’on y retrouve des caractéristiques visuelles commune est, pour nous, une capacité importante.
Référenciation sociale – interaction tri-adique
Le jeune enfant acquiert très tôt, dans les six premiers mois, la capacité à discriminer et à comprendre les expressions émotionnelles d’autrui (Nelson [1987]). Ce premier schème de communication non-verbale est très utile au développement de nouvelles capacités d’interaction. Particulièrement dans la régulation du comportement face à des situations nouvelles. D’un point de vue développemental, la reconnaissance des expressions faciales est un premier schème. Son assimilation amène à l’adaptation à l’environnement et à la création d’un second schème qui est la référenciation sociale. L’expression des émotions est une forme de communication non-verbale qui permet de communiquer ses propres émotions et de comprendre celle des autres. Les travaux en psychologie (Campos [1983]; Campos et al. [1989]; Izard [1990]; CAMPOS et al. [2013]) montrent l’utilité des expressions émotionnelles dans l’interaction de l’humain avec son environnement physique et social. Les émotions jouent un rôle prédominant dans l’adaptation de l’individu à son milieu social. Dans « Les origines du caractère chez l’enfant », Wallon [1936] prête aux émotions une fonction de régulation du comportement et des poses corporelles : « C’est aux variations locales ou généralisées du tonus, nous dit l’auteur, que sont dus les états d’hypotonie, d’hypertonie, ou de spasme d’où procèdent les émotions ». A partir de l’age d’un an environ, le jeune enfant utilise sa capacité à communiquer par des expressions émotionnelles pour faire de la référenciation sociale (Social Referencing). La référenciation sociale est la capacité d’attribuer des valences émotionnelles à des situations (scène, objet, lieu…) a priori neutre. Campos et al. [1981] et Feinman1982 la définissent comme la capacité à utiliser des informations émotionnelles pour lever les ambiguïtés des situations nouvelles et adapter le comportement en conséquence. La fonction de régulation du comportement de la référenciation sociale est partagée par la majorité des chercheurs (CAMPOS et al. [2013]; Walden and Baxter [1989]; Feinman et al. [1992]; Rosen et al. [1992]; Mumme et al. [1996]; Baldwin and Moses [1996]). Les expériences de Klinnert [1984] ont montré une corrélation entre le comportement du bébé et l’expression faciale de sa mère. Klinnert a présenté des jouets à connotation négative à des enfants âgés de 12 à 18 mois, tout en demandant à leurs mères d’exprimer de la joie, de la peur ou un visage neutre. L’enfant s’approche des objets et les explore lorsque sa mère exprime de la joie. A l’inverse l’expression de peur, modifie le comportement de l’enfant qui s’éloigne de l’objet et s’approche de sa mère. La même année Gunnar and Stone [1984] ont utilisé des jouets avec des connotations différentes (plaisantes, ambigues, négatives), notamment grâce à un robot mécanique utilisé comme stimulus ambigu. Ils ont montré que des enfants d’un an réagissaient positivement à ces jouets lorsque leurs mères expriment un affect positif. Les observations de Sigman and Kasari [1994] ont aussi montré que les enfants se référent aux adultes face à l’arrivée d’un stimulus ambigu comme un robot bruant. Ces expériences montrent que la communication émotionnelle permet d’affronter les situations nouvelles et ambiguës. Cette communication peut se faire au travers de différents canaux, expression faciale, tonalité de la voix, gestes. La maman parlant d’un individu de manière joyeuse permet à l’enfant d’accepter d’avantage cet individu (Feinman and Lewis [1983]). Les travaux de Feinman sont intéressants car ils montrent un lien entre le conditionnement au second ordre et la référenciation sociale. FIGURE 5.3 – Référenciation sociale : falaise visuelle (Galinsky [2010]). Le changement de comportement par référenciation sociale est bien démontré dans l’expérience de la falaise visuelle (fig.5.3) de Klinnert (Sorce et al. [1985]). Cette expérience montre l’effet de la communication émotionnelle sur le comportement de l’enfant face à des situations ambiguës et inconnues. La falaise visuelle est une table vitrée dont la moitié est recouverte d’un motif à carreaux. Le même motif est placé sous la partie vitrée de sorte à être visible par l’enfant qui se balade sur la table. Ce dispositif donne une impression de chute. La mère fait face à son bébé installé sur la table du coté opaque. Les mères expriment différentes expressions faciales : joie, peur, colère, tristesse. Les observations montrent que la majeure partie des bébés (75%) traversent la falaise visuelle lorsque les mères expriment des affectes positifs (joie). A contrario, les bébés reculent ou s’arrêtent lorsque les mères expriment de la peur ou de la colère. Ceci montre que les enfants ont la capacité à comprendre les expressions de leurs mères et modifient leur comportement en conséquence. Ils s’approchent et traversent devant une expression positive, et reculent ou s’arrêtent devant des expressions négatives. Une autre expérience de Sorce and Emde [1981] découple la présence de la mère et son expressivité. Cette étude montre l’effet de l’interaction de la mère avec son enfant sur son comportement. Particulièrement sur le comportement de jeu et d’exploration en présence de perturbation extérieur. Au début, l’enfant joue dans une pièce où la mère est présente. En plus de la mère un individu étranger et un robot sont positionné en retrait dans un coin de la pièce. Après un certain temps l’individu étranger s’approche de l’enfant pour interagir avec lui et le robot se met en marche pour ajouter de la confusion à l’enfant. Les couples mères enfants sont divisés en deux groupes. Dans le premier groupe les mères étaient présentent mais non-disponible. Ces mères sont occupées à lire des magazines et ne changent pas de comportement face aux demandes de leurs enfants. Dans le second groupe les mères sont présentes et disponibles prêtes à intéragir avec leurs enfants. Les observations ont montré que les enfants dont la mère est disponible sont plus joyeux, leur exploration s’intensifie, et leur comportement change en fonction des expressions émotionnelles de leurs mères.