Génération de mouvement guidé par un critère de décision à court terme

Télécharger le fichier original (Mémoire de fin d’études)

Localisation de sources à partir des indices binauraux

En robotique, les microphones sont généralement disposés sur la tête du robot (tête sphérique ou anthropomorphe). Les indices binauraux (ILD et ITD) sont les indices les plus utilisés et leur extraction à partir du flux binaural est généralement effectuée en vue d’obtenir une information sur l’azimut de la source. Notons que dans le cas particulier où les microphones sont en champ libre, les ITD sont relativement indépendants de la fréquence et les ILD n’apportent que très peu d’information (la différence d’intensité entre les signaux gauche et droit tient essentiellement à la pré-sence d’un élément diffusant entre les microphones), ce qui rend ces derniers indices difficilement exploitables. L’extraction de ces indices à partir du flux binaural peut être effectuée à partir de diverses méthodes (calculs dans les domaines temporels ou fréquentiels, méthodes bio-inspirées, etc.) dont une liste non exhaustive peut être trouvée dans [Youssef et al. 2012]. Dans certaines études [Lim & Duda 1994, Ras-paud et al. 2010], les indices binauraux utilisés pour l’estimation de l’azimut sont obtenus à partir de données HRTF.
Cependant l’exploitation des indices binauraux ne donne qu’une information partielle sur la position de la source. Premièrement, ces indices ne fournissent pas suffisamment d’information pour estimer de manière satisfaisante la distance qui sépare le capteur de la source. Ensuite, les indices binauraux ne permettent pas d’estimer l’azimut sans ambiguïté. En effet, dans le cas d’une paire de microphones en champ libre, une même valeur d’ITD peut être associée à différents angles d’in-cidence de la source, formant un hyperboloïde à deux nappes (gauche et droite). Cette surface peut être assimilée à un cône pour des sources suffisamment éloignées. L’expression « cône de confusion » est utilisée dans la littérature. Les résultats de différentes études présentées dans [Shinn-Cunningham et al. 2000], montrent que ce cône se forme également lorsque les microphones sont placés sur une tête sphérique. Enfin, notons que cette surface d’incertitude en 3D est réduite à une ambiguïté avant-arrière lorsque la localisation est effectuée dans un plan horizontal.
Ce concept de cône de confusion est connu depuis longtemps et des études ont tenté de démontrer l’intérêt du mouvement de la tête pour la localisation chez l’hu-main. Dans [Wallach 1938], l’influence du mouvement de la tête est étudiée de façon
à mieux caractériser ce cône de confusion. Dans [Thurlow & Runge 1967], la contri-bution du mouvement de la tête pour la localisation d’une source est considérée. Pour cette étude, des individus doivent localiser au mieux des sources sonores dans différentes conditions tout en effectuant divers mouvements de la tête. Les auteurs montrent que l’erreur de localisation horizontale est fortement diminuée lorsqu’un mouvement de rotation est effectué. La réduction d’erreur verticale n’est par contre pas significative.
Chez l’humain la tête n’est pas parfaitement sphérique, les oreilles ne sont pas diamétralement opposées et la tête n’est pas symétrique par rapport au plan trans-versal contenant l’axe interaural. Par ailleurs, il est reconnu que le torse perturbe la diffusion de l’onde sonore aux basses fréquences [Algazi et al. 2001]. En consé-quence, les indices binauraux ne sont pas parfaitement constants pour des sources placées sur un même cône de confusion [Shinn-Cunningham et al. 2000]. À par-tir de ce constat, les limitations apparaissant lors de l’estimation de la position d’une source à partir des indices binauraux pourraient être théoriquement levées en plaçant le capteur binaural sur un mannequin anthropomorphe (composé d’une tête et d’un torse). Ces mannequins sont conçus de manière à émuler les mêmes phénomènes de diffusion acoustique que chez l’humain. Cependant s’il a été démon-tré que les dissymétries du corps humain pouvaient participer à la localisation, de tels indices acoustiques encodent en réalité des relations extrêmement complexes entre la fréquence et la position de la source, rendant ces dissymétries difficilement exploitables.
Récemment, dans [Portello et al. 2013], deux microphones placés sur une tête sphérique sont exploités de façon à localiser horizontalement une source. Une fonc-tion de « pseudo log-vraisemblance » de l’azimut est établie à partir d’une analyse temps-fréquence du flux binaural et de la fonction de transfert interaurale (ITF). L’ITF est naturellement définie à partir des HRTF gauche et droite, qui prennent en compte la diffusion acoustique sur la tête. Les auteurs montrent que la fonction de vraisemblance obtenue permet une estimation de l’azimuth de meilleure qualité que dans les deux autres cas suivants : (1) flux binaural obtenu par des microphones en champ libre et exploitation d’une ITF décrivant une propagation en champ libre ;
(2) flux binaural obtenu par des microphones effectivement disposés sur la tête, mais exploitation de HRTF et ITF décrivant une propagation en champ libre ou reposant sur l’approximation de Woodworth-Schlosberg (ILD nuls, et écriture simplifiée des ITD). Le cas (1) prouve que les ILD implicitement inclus dans la décomposition temps-fréquence du flux binaural relatif à la tête sphérique apportent une informa-tion significative sur l’origine spatiale de la source. Le cas (2) permet d’apprécier les erreurs commises lors de l’exploitation de modèles de propagation simplifiés. L’ambiguïté avant-arrière demeure naturellement présente. Cette méthode qui sera davantage détaillée en 1.3.2, a été étendue pour l’estimation des azimuts relatifs à plusieurs sources [Portello et al. 2014a].

Mouvements en boucle ouverte

En robotique, un moyen de lever l’ambiguïté avant-arrière et d’estimer la dis-tance, est d’assimiler au cours du temps l’information spatiale provenant de l’ana-lyse court-terme des indices binauraux et de la combiner avec les ordres moteurs du capteur binaural (qui induisent son déplacement selon une loi de dynamique a priori définie à l’avance) [Nakadai et al. 2000]. Il s’agit de processus de localisation audio-moteurs. Dans [Lu & Cooke 2010], les signaux gauche et droit sont d’abord traités par des filtres de type gammatone. Ensuite, les ITD sont estimés comme l’argument maximisant la somme de la corrélation croisée des sorties de ces filtres. La localisation repose sur un filtre à particules. L’étude est effectuée en simulation

État de l’art de la localisation binaurale en robotique

et met en avant le fait que les performances de la localisation sont influencées par la nature des mouvements de la tête binaurale, tels que des mouvements aléatoires et les déplacements en direction de la source. Une approche différente est proposée dans [Portello et al. 2011] où, sur la base du temps de retard mesuré entre deux microphones en champ libre, un filtre de Kalman unscented multi-gaussien (Multi-Gaussian Unscented Kalman Filter (MG-UKF)) constitue une alternative au filtre particulaire pour la localisation d’une source unique. Le MG-UKF est pourvu d’une initialisation automatique et permet d’éviter une estimation trop optimiste de la covariance de la variable d’état représentant la position de la source. De par l’ambi-guïté avant-arrière dans l’estimation de l’azimut, la densité de probabilité (ou pro-bability density function (pdf)) de la position de la source relativement au capteur binaural est multimodale, et peut difficilement être assimilée à une loi gaussienne. Le mélange de gaussiennes permet une meilleure approximation. Dans [Portello et al. 2012], les auteurs étendent leur approche à la gestion des fausses mesures en implémentant un filtre multi-hypothèses à association de données probabiliste (Multiple Hypothesis Probabilistic Data Association Filter (MH-PDAF)). La mé-thode est inspirée du Probabilistic Data Association Filter (PDAF) de [Bar-Shalom et al. 2009], qui est modifié de façon à intégrer l’approche à mélange de gaussiennes de [Portello et al. 2011]. Le MH-PDAF est ensuite complété de façon à gérer l’inter-mittence de la source, par l’intégration d’un détecteur d’activité basé sur le test du rapport de vraisemblances généralisé (Generalized Likelihood Ratio Test (GLRT)). Typiquement, deux modèles M1 et M2 sont définis, qui représentent respectivement les cas où la source est active ou inactive. Le GLRT permet de détecter les tran-sitions inter-modèles sans connaissance a priori relative à celles-ci. Une approche complémentaire est proposée dans [Nguyen et al. 2016] pour la localisation d’une source intermittente depuis un robot mobile muni d’une antenne de microphones. Les auteurs introduisent une extension d’un filtre de Kalman étendu multi-gaussien, appelée Mixture Kalman Filter (MKF). Celle-ci permet d’estimer un vecteur d’état mixte discret-continu qui aggrège l’activité de la source et sa position relativement au capteur, sur la base d’observations, également mixtes, issues de l’analyse court-terme du flux binaural par un algorithme de détection d’activité et un algorithme d’estimation d’azimut.
La fonction de pseudo log-vraisemblance de l’azimut évoquée en 1.2.1 et in-troduite dans [Portello et al. 2013], qui exploite directement les données HRTF et donc l’intégralité de la réponse acoustique de l’élément diffusant, a également été exploitée dans des méthodes de filtrage. Dans [Marković et al. 2013], cette fonction, souvent définie avec une résolution non maîtrisée (typiquement 1◦ ou 5◦ pour un ensemble tête-torse anthropomorphe, selon la résolution spatiale des relevés HRTF), est d’abord ajustée à des distributions circulaires, non normalisées, de von Mises ou Cauchy. L’intérêt d’introduire des lois circulaires est de prendre en compte naturel-lement le fait que l’argument de la pseudo-vraisemblance, i.e., l’azimut, vit sur le cercle unité et non sur la droite réelle. Les deux modèles ont été comparés, et il a été montré que les distributions de von Mises permettent un ajustement plus pertinent. La vraisemblance originale et son expansion par une loi de von Mises ont ensuite été

Localisation binaurale et mouvement actif

intégrées dans une stratégie de localisation audio-motrice basée sur un filtre à parti-cules. Les propriétés de ce filtre ont été testées par des simulations de Monte-Carlo, mettant en avant la pertinence de l’approche mais soulignant l’apparition ponc-tuelle d’inconsistence (estimé de la covariance a posteriori trop optimiste). Selon les auteurs, ce problème pourrait être réglé en augmentant le nombre de particules ou en ajustant l’initialisation du filtre. L’évaluation des vraisemblances des parti-cules au moyen de l’expansion de la pseudo-vraisemblance par une loi de von Mises permet toutefois une meilleure estimation de la distance sans dégrader l’estimation de l’azimut. Enfin, la fonction de pseudo log-vraisemblance de l’azimut de [Portello et al. 2013] a également été approchée par un mélange de gaussiennes, de façon à être intégrée dans un schéma (modifié) de type MG-UKF [Portello 2013] [Portello et al. 2014b]. Nous reviendrons sur cette approche dans la partie Notons toutefois qu’en pratique, la qualité de la perception auditive par un ro-bot, et donc la qualité des processus qui en dépendent, peut être altérée par le bruit qu’il génère, ou « ego-noise ». Une illustration de ce problème est donnée dans [Fu-rukawa et al. 2013], où un drone multi-rotors équipé d’une antenne de microphones doit faire face au bruit stationnaire qu’il émet durant son vol, le tout en effectuant une tâche de localisation. La référence [Ince et al. 2009] étudie des solutions au pro-blème de l’ego-noise et propose une méthode de soustraction spectrale pour réduire son impact. Les performances sont évaluées sur des expériences de reconnaissance automatique de la parole.

Table des matières

Introduction
Perception et actions en robotique
L’audition en robotique
Organisation de la thèse
1 Localisation binaurale et mouvement actif
1.1 Indices auditifs et modèles pour la localisation binaurale
1.1.1 Indices binauraux et monauraux
1.1.2 Modèle HRTF
1.2 État de l’art de la localisation binaurale en robotique
1.2.1 Localisation de sources à partir des indices binauraux
1.2.2 Mouvements en boucle ouverte
1.2.3 Génération de mouvements actifs
1.3 Vers une localisation binaurale active en trois étapes
1.3.1 Introduction
A Notations
B Modèle géométrique
1.3.2 Estimation à court terme d’azimuts
1.3.3 Localisation audio-motrice
1.3.4 Position du problème de synthèse de mouvement actif
1.4 Présentation des outils d’évaluation
1.4.1 Simulateur binaural
1.4.2 Localisation à partir d’un robot mobile
2 Outils théoriques pour la commande référencée information
2.1 Définitions de l’information
2.1.1 Estimation et mesure d’information
2.1.2 Entropie et Information Mutuelle
2.1.3 Entropie et filtrage bayésien
2.2 Perception active en robotique
2.2.1 Définition d’un modèle
2.2.2 Choix du critère d’information
2.2.3 Décisions à court terme contre décisions à long terme
2.3 Fonction d’incertitude pour la localisation active de sources sonores .
2.3.1 Hypothèses du modèle d’exploration
2.3.2 Définition d’une fonction d’incertitude
A Récompense immédiate
B Critère de décision à long terme
3 Génération de mouvement guidé par un critère de décision à court terme
3.1 Définition du problème d’optimisation
3.2 Intuitions sur le mouvement
3.2.1 Mouvement guidé par les ITD
3.2.2 Mouvement guidé par des mesures linéaires en azimut
3.3 Lignes de niveau
3.3.1 Exploration guidée par les ITD
3.3.2 Cas idéal de l’exploration guidée par des azimuts
3.3.3 Discussions
3.4 Gradient de la fonction de récompense
3.4.1 Définition de F1
3.4.2 Évaluation du gradient en un point
3.5 Optimisation sous contraintes
3.5.1 Conditions d’optimalité
3.5.2 Résolution numérique
3.6 Évaluation de la méthode
3.6.1 Simulation
3.6.2 Expériences en conditions réelles
4 Génération de mouvement avec critère de décision à long terme
4.1 Position du problème
4.1.1 Évaluation de JN
4.1.2 Définition du gradient de JN
4.2 Approches numériques
4.2.1 Différentiation automatique
4.2.2 Résolution de PN par la méthode du gradient projeté
4.3 Analyse de résultats de simulation
4.3.1 Comparaison entre différents horizons d’exploration
4.3.2 Évaluations statistiques
5 Prospectives pour la localisation binaurale à mouvement actif
5.1 Prospectives court terme
5.1.1 Comparaison exhaustive avec une simplification rencontrée dans la littérature
5.1.2 Prise en compte du bruit de dynamique
5.1.3 Entropie d’un mélange de gaussiennes
5.2 Évolution vers une stratégie multiobjectifs
Conclusion
A Le filtre de Kalman unscented
A.1 La transformée unscented
A.2 Implémentation de l’UKF
B Optimisation statique
B.1 Définitions
B.2 Optimisation sans contrainte
B.3 Optimisation sous contraintes
C Acronymes
Bibliographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *