Modélisation de l’intégration tactile, visuelle et proprioceptive pour la représentation corporelle

Modélisation de l’intégration tactile, visuelle et proprioceptive pour la représentation corporelle

Modèle computationnel

Le principe d’intégration est basé sur le produit des champs d’activité entre plusieurs modalités X et Y , en l’occurrence la représentation du bras robotique dans le champ visuel à partir de l’information tactile et proprioceptive (angle moteur) et la vision (point de focalisation de l’attention), afin de calculer en sortie la variable Z, la représentation l’emplacement de la cible par rapport au bras. La figure 4.3 présente le modèle computationnel d’intégration multisensorielle pour le bras robotique. Il contient 3 étapes : (1) intégration de l’information visuo-motrice basée sur l’information tactile, (2) localisation de l’objet dans le champ visuel, (3) détection de la position de l’objet par rapport au bras robotique. Nous présentons par la suite ces trois étapes en détail.

Intégration visuo-motrice et tactile pour l’apprentissage du schéma corporel

La première partie du modèle computationnel a pour but d’apprendre la localisation spatiale du bras robotique dans le référentiel visuel à partir du sens tactile afin de construire un référentiel centré sur le bras. Nous utiliserons le retour tactile pour déclencher l’apprentissage d’association entre le champ réceptif du point de focalisation d’attention visuel et la proprioception (l’angle moteur). Pour simplifier, le système de vision est basé sur la reconnaissance de la couleur.

L’image en entrée est au format RGB et de résolution 160 × 120. Cette image est d’abord convertie en HSV (Hue Saturation Value ; Teinte Saturation Valeur) afin de pouvoir en récupérer des exemplaires dont nous faisons varier la Teinte (Hue). Ces variations permettent de récupérer la prédominance d’une couleur choisie au sein de l’image. Nous effectuons ensuite une binarisation de l’image, l’image initiale se transforme en une image en noir et blanc où tous les pixels n’ont que deux valeurs 0 et 1. Nous projetons par la suite cette image sur des champs de neurones de même dimension.

Représentation de la cible dans le référentiel visuel centré sur l’œil

Après avoir réaliser l’apprentissage de la représentation du bras robotique dans le champ visuel, nous exploitons par la suite ce système visuel seulement pour représenter la cible dans le référentiel visuel centré sur l’œil. La détermination de la position de l’objet est basée également sur la reconnaissance des couleurs présentée ci-dessus. Une image au format RGB de la même dimension 160 × 120 est convertie en HSV et est binarisée par la suite en correspondance avec la couleur de l’objet. Par la suite, nous projetons cette image binarisée sur des champs de neurones de même dimension.

Puis, nous effectuons le calcul de sommes horizontales et verticales d’activité des neurones. Enfin, nous localisons les coordonnées x et y du centre de l’objet dans le champ visuel grâce à un mécanisme de compétition basé sur des inhibitions latérales entre les neurones voisins (cf. figure 4.3 II a)).

Cette compétition est effectué grâce à une règle de WTA (Winner Takes All). De cette manière, le neurone le plus actif inhibe tous les autres (Rumelhart and Zipser [1985]; Carpenter and Grossberg [1988]). Le neurone gagnant génère une sortie à 1, les autres neurones sont mis à 0. La représentation du champ visuel de la cible centrée sur l’œil est réalisée par les neurones multiplicatifs, la multiplication des vecteurs de WTA avec une courbe gaussienne centrée sur x et y (cf. figure 4.3 II b)).

Orientation visuelle désirée dans le référentiel centré sur le bras

Afin de combiner les activités des populations neuronales de différents référentiels et modéliser les neurones pariétaux, nous utilisons à nouveau un mécanisme d’intégration multiplicatif. Les neurones multiplient unité par unité la valeur de deux populations de neurones entrants ou plus. Son organisation est similaire à la fonction de base radiale (RBF) parce qu’elle transforme les signaux entrants en une représentation des fonctions de bases, un espace fonctionnel, qui pourrait être exploité pour représenter simultanément des stimuli dans différents référentiels (Pouget and Sejnowski [1997]).

En calculant le produit, les neurones réalisent un encodage de l’information mutuelle entre les deux modalités, c-à-d entre le référentiel centré sur le bras et le référentiel centré sur la cible. Pour dériver l’emplacement de la cible par rapport à la main, nous soustrayons les vecteurs entre l’emplacement du regard (position x, y du point de focalisation de l’attention) et un référentiel mutuel (les coordonnées x 0 , y0 définit par WTA).

La proximité de la cible par rapport au bras est définie par argmax du référentiel mutuel (cf. les figure 4.3 III et 4.6) et est convertie en une valeur entre 0 et 1. Une valeur 0 indique que la cible se trouve loin du bras et n’est pas dans l’espace péri-personnel. La valeur de 1 indique que la cible se trouve au-dessus du bras ou le touche si cela est confirmé par le retour tactile