Localisation Binaurale Active de Sources Sonores en Robotique Humanoïde

L’audition en robotique

Au début des années 70, le terme robot désignait principalement un bras manipulateur placé dans un atelier et réalisant des tâches simples et répétitives (pick and place, assemblage, peinture). Son environnement, dépourvu de toute présence humaine, était complètement contrôlé, et ses actions étaient complètement programmées à l’avance. Depuis, la robotique n’a cessé d’évoluer de sorte que de nos jours, un robot est généralement muni de facultés avancées de perception, de décision et d’action, de façon à pouvoir s’adapter de manière autonome à des environnements non contrôlés et évoluant dynamiquement. De plus, de par les fonctions de plus en plus variées qu’il doit réaliser (assistance, surveillance, exploration, secours, nettoyage, etc.), celui-ci est désormais en interaction constante avec son environnement et avec les humains.
Aussi la perception est-elle devenue un point essentiel à l’autonomie et l’adaptation des robots à leur environnement, ainsi qu’à leur interaction avec l’Homme. Au sein des différentes modalités de perception, on peut distinguer deux catégories : la proprioception, i.e. la capacité du robot à obtenir de l’information sur son état interne (position/vitesse angulaire des roues, angles des articulations, odométrie, etc.), et l’extéroception, qui renseigne le robot sur son environnement (télémètres ultrasons/infrarouge/laser, caméras visible/infrarouge/multispectrale, microphones, capteurs d’efforts, etc.). Parmi les modalités extéroceptives, la vision est certainement celle qui a reçu le plus grand intérêt en robotique, en raison de la richesse de l’information apportée par les images, mais également grâce aux grandes performances, au bas coût et à l’embarquabilité des capteurs visuels. Tout comme la vision, l’audition est un sens très important chez les humains, et joue un rôle fondamental dans le langage, l’apprentissage et la communication. Mais assez curieusement, l’audition en robotique n’a été identifiée comme un sujet scientifique à part entière que récemment. Une raison possible est la difficulté pour un système auditif artificiel de remplir certaines contraintes soulevées par la robotique, comme par exemple l’embarquabilité, la performance de l’acquisition ou les contraintes temps réel. Ainsi, bien que des résultats fussent développés depuis longtemps dans les domaines de l’acoustique et du traitement du signal, la littérature sur l’audition en robotique est longtemps restée relativement éparse.
À ses débuts, l’audition en robotique a bénéficié de nombreux développements effectués en analyse computationnelle de scène auditive (Computational Auditory Scene Analysis–CASA).

L’audition active

La plupart des contributions à l’audition binaurale sont fondées sur l’hypothèse d’un monde statique. Une telle vision facilite grandement le problème, mais il est pourtant clair que l’audition et la communication prennent place dans un monde où l’hypothèse d’un monde figé n’est pas valable [Cooke et al.,2007]. Cependant, la perception active, exploitant les divers degrés de liberté que possède un robot mobile, peut grandement aider au processus d’analyse de la scène auditive. Des contributions ont déjà proposé des solutions à la perception auditive active. Dans [Nakadai et al.,2000], un système intègre l’audition, la vision et et les ordres moteurs du robot SIG pour suivre une source sonore. Un système adaptatif d’annulation du bruit des actionneurs du robot est également implémenté. Un extension de ce travail à la reconnaissance active de parole est proposée dans [Nakadai et al.,2003b]. Le travail présenté dans [Toshima et Aoki, 2009] concerne un robot actif de téléprésence acoustique, dont les mouvements de tête sont synchronisés avec ceux d’un utilisateur situé à distance et écoutant en temps réel les signaux binauraux perçus par le robot. L’étude montre que dans le cas statique, la Fonction de Transfert liée à la Tête—Head-Related Transfer Function (HRTF)—du robot (caractérisée par la forme de la tête et du torse, leur impédance acoustique, les propriétés du milieu acoustique, etc.) doit coïncider fortement avec celle de l’utilisateur pour que celui-ci puisse localiser précisément la source sonore.
En revanche, lorsque la mobilité du robot est exploitée, une localisation précise est possible même avec une HRTF générique simplifiée (tête du robot en forme d’œuf avec ou sans pavillons artificiels). Dans [Berglund et Sitte, 2005], le lien entre la position relative d’un locuteur par rapport à un capteur binaural et un certain nombre d’indices binauraux—Différences Interaurales en Temps, Phase et Amplitude (Interaural Time Difference (ITD), Interaural Phase Difference (IPD), Interaural Level Difference (ILD) respectivement)—, indépendants du contenu spectral de la source et concaténés dans un vecteur de grande dimension, est appris hors-ligne à l’aide d’une carte auto-organisée sans paramètres (Parameter-Less Self Organising Map–PLSOM). Une fois cet apprentissage réalisé, les indices binauraux sont extraits en ligne puis utilisés comme entrée de la carte auto-organisée afin de déterminer la direction de la source et d’orienter le capteur vers celle-ci.
Dans [Deleforge et Horaud, 2011], une méthode alternative d’apprentissage non-supervisé est proposée pour localiser en milieu réverbérant une source sonore statique à partir d’une tête anthropomorphe binaurale munie de deux degrés de liberté en rotation (angles pan et tilt). L’émetteur est placé dans une position de référence fixe dans la pièce et différentes directions d’arrivée sont «simulées» en inclinant et tournant la tête du robot (en dépit du fait qu’il n’y a pas réciprocité au sens acoustique entre tourner la tête binaurale et déplacer l’émetteur, de par l’effet de réverbération de la pièce). La méthode utilise comme entrée acoustique les énergies en décibels perçues selon chaque bande de fréquence en chaque microphone. Elle repose sur l’extraction d’un vecteur d’indices binauraux statiques (ILD), ou d’indices monauraux dynamiques (dérivée temporelle des entrées acoustiques). Le but de l’apprentissage est donc de retrouver une paramétrisation en basse dimension (deux dimensions associées aux deux degrés de liberté de la tête) à partir d’une représentation spectrale exprimée dans un espace de haute dimension, appelé espace sensoriel. L’idée est qu’en dépit de la grande dimension de l’espace sensoriel, le vecteur d’indices vit en fait dans une variété de dimension réduite paramétrée par l’orientation de la tête. Dans l’idéal, cette variété doit être suffisamment lisse pour que l’ensemble des échantillons de l’espace sensoriel ou «distribution» la décrive correctement.

Filtrage stochastique en audition

La fusion de l’information auditive et du mouvement via le filtrage stochastique figure également dans [Ward et al.,2003] hors de tout contexte robotique et dans [Valin et al.,2006].
La référence [Valin et al.,2006] considère une antenne circulaire de huit microphones. La sortie d’une formation de voie (steered beamforming) basée sur une transformée de phase pondérée par la fiabilité (Reliability-Weighted PHAse Transform–RWPHAT) est exploitée dans une stratégie de filtrage particulaire avec rééchantillonnage d’importance séquentiel (Sequential Importance Resampling–SIR). Jusqu’à trois sources, dont les mouvements sont supposés générés par un processus de Langevin (excitation-damping model), sont localisées simultanément. Dans la même veine, [Marković et Petrović, 2010] proposent une stratégie de filtrage particulaire pour un problème plan à partir d’une antenne de quatre microphones et diverses géométries d’antenne.
La construction d’une fonction de vraisemblance est basée sur une procédure en deux étapes. D’abord, une corrélation croisée généralisée est effectuée sur chaque paire de microphones. La différence de temps d’arrivée ainsi estimée pour chaque paire est ensuite transformée en couple d’azimuts en exploitant un modèle de propagation acoustique en champ libre et la géométrie de l’antenne. Ce couple d’azimuts exprime le fait qu’avec le modèle considéré, deux sources placées en deux azimuts distincts conduisent à une même différence en temps d’arrivée. La fonction de vraisemblance est ensuite construite sur la base d’un mélange de distributions de Von Mises, dont les paramètres sont calculés à partir des azimuts estimés et de la sensibilité de l’antenne en leur voisinage. Le choix des distributions de Von Mises pour modéliser la fonction de vraisemblance est naturellement lié au fait que les azimuts extraits sont des variables aléatoires de nature circulaire. Des résultats expérimentaux sont donnés pour une antenne statique et un locuteur mobile, ainsi que pour un locuteur immobile et une antenne en mouvement. Cependant, pour une antenne en mouvement, l’odométrie de la plateforme robotique portant l’antenne, ainsi qu’un modèle décrivant la façon dont le mouvement du robot affecte les variables de position du problème, ne semblent pas exploités.

Le paradigme binaural

On peut voir deux paradigmes à l’audition en robotique. Certaines approches sont fondées sur le traitement d’antenne [Van Trees, 2002]. La redondance de l’information apportée par un réseau de microphones permet alors d’obtenir une bonne performance de l’analyse acoustique et une certaine robustesse vis-à-vis des contraintes liées à la robotique : sources multiples; large-bande; non-stationnaires; environnements bruités; réverbérants; évolutifs; incertitudes de modélisation; etc. D’autre part, les approches binaurales reposent sur une seule paire de microphones, qui peuvent être placés en champ libre, à l’intérieur de pavillons artificiels et/ou sur une tête. D’un point de vue ingénierie, l’utilisation de systèmes commerciaux d’acquisition synchrone stéréo bon marché facilite la mise en œuvre matérielle de solutions binaurales. Cependant, cette simplification s’accompagne généralement d’une plus grande complexité des algorithmes d’analyse de la scène. Historiquement, les premières contributions à l’audition en robotique reposaient sur le paradigme binaural, et concernaient principalement la localisation de source. Les résultats demeuraient mitigés en raison des diverses difficultés soulevées par la robotique. Les approches binaurales furent alors quelque peu abandonnées en faveur du traitement d’antenne, jugé plus performant. Cependant, ces dernières années ont donné lieu à un regain d’intérêt pour les approches binaurales. Les raisons sont multiples. Premièrement, même s’il n’est pas nécessaire de restreindre un capteur auditif à seulement deux microphones (des systèmes d’acquisition et de traitement multivoies adaptés à la robotique sont disponibles, telle la solution open-source ManyEars [Michaud. et al.,2007]), l’audition binaurale peut être considérée comme un contexte privilégié pour l’étude de certains aspects de la perception humaine ou animale, et des liens bidirectionnels intéressants peuvent être établis entre la robotique et les neurosciences: techniques robotiques bioinspirées, que ce soit sur des aspects morphologiques ou physiologiques; exploitation de la robotique comme banc d’essai pour valider ou réfuter des théories de psychologie de la perception chez l’humain (structures sensorielles, fonctions cognitives, etc.). De plus, on assiste à un besoin croissant d’une interaction symbiotique entre humains et robots (plateformes robotiques humanoïdes dotées d’une perception bioinspirée). En outre, il est globalement reconnu que le manque de robustesse des approches binaurales peut être compensé par l’exploitation conjointe de l’audition et d’autres modalités extéroceptives et/ou proprioceptives. En particulier, le contexte de la robotique mobile donne lieu à de nouvelles techniques dites actives : fusion de l’information auditive et de la proprioception du robot, exploitation de la mobilité du capteur. Enfin, de récentes théories cognitives suggèrent de nouveaux paradigmes à la perception en ingénierie [O’Regan, 2011]–[Laflaquière et al.,2010]. Ainsi, de nombreux projets de recherche et plateformes (hardware et software) dédiés à l’audition binaurale ont vu le jour ces dernières années (robot humanoïde Cog du MIT, projet SIG/HARK de Kitano Symbiotic Systems en collaboration avec l’Université de Kyoto et l’Institut de Recherche Honda au Japon, plateforme open-source iCub, projets POP et HUMAVIPS financés par l’Europe, etc.). Cette thèse s’inscrit dans le cadre du projet franco-japonais BINAAHR (BINaural Active Audition for Humanoid Robotics), financé conjointement par l’Agence Nationale de la Recherche et la Japan Science and Technology society.

Table des matières

1 Introduction 
1.1 Présentation du contexte
1.1.1 L’audition en robotique
1.1.2 Le paradigme binaural
1.1.3 L’audition active
1.1.4 Filtrage stochastique en audition
1.2 Modélisation du problème et mise en équation
1.2.1 Notations
1.2.2 Modélisation du problème
1.2.3 Équation d’état à temps continu
1.2.4 Équation d’observation
A Quelques rappels d’acoustique théorique
B Indices acoustiques utilisables pour la localisation
1.2.5 Cas d’étude
1.3 Organisation de la thèse
2 Estimation court terme de spectres et de temps de retard 
2.1 Estimation spectrale 
2.1.1 Estimation de la fonction d’auto corrélation d’un signal
A Théorèmes préliminaires
B Estimateurs de l’autocorrélation et statistiques
2.1.2 Estimation non paramétrique de la densité spectrale de puissance
A Le périodogramme
B Lissage par moyenne empirique de périodogrammes court terme
B-1 Définition générale de l’estimateur
B-2 Théorèmes préliminaires
B-3 Statistiques de l’estimateur
B-4 Interprétation des résultats
B-5 Statistiques de l’estimateur en terme d’amplitude et de phase
C Lissage parmodulation de l’autocorrélation
C-1 Définition de l’estimateur
C-2 Théorème préliminaire
C-3 Statistiques de l’estimateur
C-4 interprétation des résultats
D Discussions
2.1.3 Estimation paramétrique
A Modèle Auto Régressif
B Modèle à Moyenne Ajustée
C Modèle Auto Régressif à Moyenne Ajustée
2.2 Estimation de temps de retard
2.2.1 Modélisation «instantanée» des signaux perçus
2.2.2 Méthode de la corrélation croisée
2.2.3 Méthode de la corrélation croisée généralisée
A Le processeur Roth
B Le processeur SCoT
C Le processeur PhaT
D Le processeur HT
E Estimation des spectres et du module au carré de la cohérence
2.2.4 Estimation de temps de retard basée sur une régression linéaire du déphasage
2.2.5 Bornes théoriques associées au problème d’ETR
A Tests d’hypothèses binaires, rapport de vraisemblances, risque d’erreur
B Risque minimal d’erreur pour le problème d’estimation du temps de retard
C Borne inférieure de Ziv-Zakai
D Borne inférieure de Ziv-Zakai pour les signaux faible bande
2.3 Discussion
3 Estimation court terme d’azimut, détection d’activité 
3.1 Diffusion de l’onde incidente par une tête, estimation d’azimut
3.1.1 Localisation binaurale par estimation conjointe d’ILDetd’ITDet prétabulation d’ITF
3.1.2 Localisation binaurale par identification de signatures dans le plan ILD-IPD
3.1.3 Méthode par maximum de vraisemblance
A Hypothèse d’une source aléatoire gaussienne
A-1 Construction du vecteur de données et définition du modèle d’observation
A-2 Estimation des paramètres spatiaux et spectraux du problème
B Source déterministe inconnue
B-1 Définition du modèle d’observation
B-2 Estimation des paramètres spatiaux et spectraux du problème
C Discussions
D Résultats des imulation et interprétation
D-1 Propagation en champ libre
D-2 Diffusion sur une têtes phérique rigide
3.2 Détection instantanée d’activité de la source
3.2.1 Test de Rapport de Vrai semblances basé sur la linéarité de la phase
3.2.2 Test du Rapport de Vrai semblance Généralisé basé sur des vrai semblances monaurales
3.2.3 Détection basée sur la théorie de l’information
A Une brève introduction à l’identification statistique
B Application à la détection d’activité de sourcelarge-bande
4 Filtrage Bayésien 
4.1 Discrétisation de l’équation d’état à temps continu 
4.2 Stratégies de filtrage 
4.2.1 Conventions et notations
4.2.2 Cadre de travail
4.2.3 Hypothèses de travail
4.2.4 Le filtrage Bayésien optimal et sa solution récursive exacte
4.2.5 Le filtre de Kalman
4.2.6 Extensions nonlinéaires du filtre de Kalman
A Transformée unscentedet filtre de Kalman unscented
B Implémentation du filtre de Kalman unscented
4.3 Stratégies multi-hypothèses pour pallier les problèmes d’initialisation et de propagation de distributions étalées 
4.3.1 Distribution initiale multi-hypothèses
4.3.2 Distributions des bruits multi-hypothèses
4.4 Analyse de résultats de simulation 
4.5 Liens avec le problème du Bearings-OnlyTracking 
4.6 Gestion de fausses mesures
A Modèle à une mesure
B Modèle à mesures multiples
4.7 Détection et localisation conjointes
A Une approche basée sur le TRVG
A-1 Détectiond’unsautM1→M2
A-2 Détectiond’unsautM2→M1
A-3 Considérations importantes
B Une approche basée sur les MMI
4.8 Évaluation expérimentale de l’approche proposée 
4.8.1 Description du protocole expérimental
4.8.2 Résultats de la localisation
4.9 Stratégie pour une tête
5 Prospectives pour la localisation multi-cibles 
5.1 Détection instantanée d’azimuts de plusieurs sources 
5.1.1 L’algorithme Espérance-Maximisation en bref
5.1.2 Hypothèse de parcimonie des sources dans le domaine temps-fréquence
5.1.3 Échantillons des sources comme données latentes
5.1.4 Sources Indépendantes
5.1.5 Discussions
5.2 Filtrage multi-sources
6 Conclusion 
7 Annexes 
7.1 Probabilités
7.1.1 Généralités sur les ensembles
7.1.2 Axiomatique de Kolmogorov
7.1.3 Probabilité conditionnelle, théorème de Bayes
7.2 Variable aléatoire réelle
7.2.1 Définition d’une variable aléatoire réelle
7.2.2 Description d’une variable aléatoire
7.3 Vecteur aléatoire réels
7.4 Signaux aléatoires réels monodimensionnels
7.4.1 Définition et description d’un signal aléatoire
A Description à un instant
B Description à deux instants
C Description à n instants
7.4.2 Stationarité, ergodicité, densité spectrale
7.5 Caractéristiques des estimateurs
7.6 Preuve du théorème 4.1.1
Bibliographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *