Contexte général Pro jet Romeo Audition des robots

Contexte général Pro jet Romeo Audition des robots

M. Robert, un retraité de 70 ans, est assis sur son fauteuil dans son appartement parisien en écoutant la radio. Par cette chaude matinée du mois de juillet, M. Robert a soif. Mais depuis qu’il est en perte d’autonomie, de simples tâches comme aller chercher un verre d’eau sont de véritables défis pour lui. Mais plus maintenant. “Romeo ! Apporte-moi un verre d’eau”. Un robot humanoïde, Romeo, se déplace du séjour vers la cuisine et lui apporte un verre d’eau. Ceci est un des scénarios du projet Romeo [7] qui constitue le cadre général de cette thèse. Le projet Romeo vise à développer un robot humanoïde destiné à l’aide aux personnes âgées, malvoyantes ou en perte d’autonomie dans leur vie quotidienne. Le projet Romeo est labellisé par le pôle de compétitivité Cap Digital et financé par la région Ile-de-France, la Direction Générale de la Compétitivité, de l’Industrie et des Services (DGCIS) et de la ville de Paris.Le robot du nom de Romeo doit aider son “maître” au quotidien tout au long de la journée dans différentes tâches comme ouvrir la porte d’entrée, lui apporter des objets ou encore le secourir en cas de chute. L’interaction entre Romeo et l’Homme se fait via la voix qui représente une interface facile et accessible au plus grand nombre d’utilisateurs. L’exécution de l’ordre du maître par le robot se base essentiellement sur l’écoute et la compréhension de cet ordre qui traduisent un comportement proche de celui de l’être humain.

Analyse de scènes auditives

Un humain avec une audition saine est capable de différencier les sons qui arrivent mélangés à ses oreilles et peut se concentrer sur un son en particulier dans un environnement bruyant, l’identifier et le comprendre : c’est l’effet cocktail party. Pour reconnaître les composantes du son qui forment le mélange audio arrivant à nos oreilles, le système auditif doit en quelque sorte créer des descriptions basées seulement sur ces composantes qui ont pour origine le même évènement sonore. Le processus qui permet de réaliser cette tâche s’appelle analyse de scène auditive.Le terme “analyse de scènes” a été utilisé pour la première fois par des chercheurs en vision par ordinateur. Il fait référence à la stratégie avec laquelle un ordinateur tente de mettre ensemble toutes les propriétés visibles (contours, textures des sur- faces, couleurs, etc…) qui appartiennent au même objet, dans une photographie d’une scène où les parties visibles de cet objet sont discontinues (à cause d’un obs- tacle se trouvant entre la caméra et l’objet en question). Et ce n’est qu’après ce rassemblement que la forme et les propriétés globales de cet objet sont déterminées. Par analogie selon Bregman [17], l’analyse de scènes auditives est le processus par lequel le système auditif d’un être humain organise le son en des éléments percep- tuels significatifs, puis les fusionne ou les sépare afin de distinguer entre les sources présentes dans son environnement. Le concept d’analyse de scènes auditives a été introduit pour la première fois par Bregman en 1990 [17].

Dans le scénario présenté au début de cette section, l’humanoïde Romeo est équipé de microphones par analogie aux oreilles humaines. Les microphones de Ro- meo reçoivent deux signaux audio se trouvant dans l’environnement du robot : la voix du maître et le signal de la radio arrivent aux capteurs mélangés. Un être humain se serait naturellement concentré sur la voix du maître, grâce aux mécanismes de psy- choacoustique que nous venons de citer [17]. Pour qu’il puisse agir en conséquence des évènements qui se produisent, le robot doit comprendre son environnement so- nore, séparer et localiser les sources, identifier le locuteur, comprendre ce qu’il lui dit et détecter ses émotions : c’est la définition de l’audition des robots. L’audition des robots se base sur la modélisation informatique de l’analyse de scènes auditives connue sous le nom d’analyse computationnelle de scènes auditives (CASA : Compu- tational Auditory Scene Analysis). L’analyse computationnelle de scènes auditives représente un cadre général du traitement des signaux audio qui vise à comprendreun mélange arbitraire de sons contenant différents types de signaux (de la parole, des signaux autres que de la parole, des signaux musicaux, etc.) dans des environ- nements acoustiques différents. Un algorithme de CASA analyse les mélanges audio et doit être capable de dire quelle partie de ce mélange est pertinente pour des pro- blèmes comme la segmentation de flux, l’identification et la localisation des sources mais aussi, et c’est la partie qui nous intéresse dans cette thèse, la séparation des sources.

 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *