Fondement perceptif du modèle morphologique

Télécharger le fichier original (Mémoire de fin d’études)

L’environnement sonore

Émuler la capacité humaine à percevoir et analyser les objets de l’en-vironnement à partir de données sensibles brutes est aujourd’hui un défi central de l’informatique appliquée. Dans ces recherches, le do-maine de l’image s’est taillé la part du lion, stimulé par les nom-breuses applications possibles, tant dans le domaine de la recherche d’information que dans celui de la robotique – avec aujourd’hui l’ap-parition des premiers véhicules intelligents, capables d’analyser leur environnement. La sphère sonore, pour sa part, a d’abord vu se dé-velopper les recherches portant sur les objets spécifiques que sont la voix, puis la musique : chacun bénéficie maintenant de champs de recherche dédiés, que ce soit en perception ou en intelligence arti-ficielle (SP : Speech Processing, traitement automatique de la parole, et MIR : Music Information Retrieval, recouvrement de l’information musicale). Plus récemment, suivant un intérêt croissant pour les pro-blématiques de nuisance sonore, d’une part, et de prise en compte du contexte (context awareness), de l’autre, la question de l’analyse d’en-vironnements sonores, c’est-à-dire de scènes sonores « ordinaires » ne relevant ni de la parole, ni de la musique a gagné en importance. C’est dans ce domaine que se positionne le travail présenté dans cette thèse.

On peut tout d’abord remarquer que cette définition des sons en-vironnementaux1 par exclusion de la parole, et de la musique, n’est pas satisfaisante. D’un côté, elle réduit les sons environnementaux à des entités secondaires. D’un autre, l’opposition suggérée entre sons environnementaux et parole ou musique, deux domaines où le sens donné aux sons est de primordial, peut mener à penser que l’in-fluence de la valeur sémantique des sons environnementaux est anec-dotique, induisant, de facto, la prédominance de leurs caractéristiques physiques. Postulat largement réfuté dans la littérature (Ballas et Howard, 1987).

Nous préférerons ici la définition donnée par Vanderveer, 1980 (cité par Ballas et Howard, 1987) qui se pose en quatre points. Un son environnemental :

Dans ce document, par souci rédactionnel, nous parlerons indifféremment de son(s) environnemental(aux), d’environnement(s) sonore(s), de scène(s) sonore(s), et de scène(s) sonore(s) environnementale(s), pour désigner les sons environnementaux.

1. est produit par une source réelle ;

2. a un sens, en vertu de l’action qui en est la cause ;

3. est par essence plus complexe qu’un stimulus de synthèse pro-duit en laboratoire, comme un son pur ;

4. ne fait pas partie d’un système de communication.

Les deux premiers points caractérisent directement les sources émet-trices, précisant qu’il s’agit de sources réelles, et insistant sur l’im-portance du sens qu’elles portent. Nous remarquons cependant que la définition pose la valeur sémantique des sources uniquement par rapport à l’action à l’origine du son. Or, le contexte d’émission/ré-ception, contexte relatif au sujet ou à son environnement, est déter-minant. Une même scène sonore peut être perçue différemment par deux individus, et il nous paraît nécessaire de renforcer le point 2 de la définition comme suit :

a un sens, en vertu de l’action qui en est la cause, ainsi que du contexte d’écoute.

Les deux derniers points positionnent les sons environnementaux par rapport aux autres stimuli sonores couramment étudiés, les op-posant spécifiquement aux sons de synthèse produits en laboratoire, ainsi qu’aux sons ayant une portée communicationnelle comme la parole ou la musique.

La définition insiste sur le fait que la perception d’un environ-nement sonore relève avant tout de l’interprétation sémantique des événements qui le peuplent, i. e. de l’identification de la nature des sources sonores émettrices. Cette importance de la composition sé-mantique sur les qualités sensibles des scènes nous permet d’envisa-ger la scène comme un objet composite, le résultat de l’association des sources sonores qui la constituent.

Partant de cette vision composite des scènes, l’objectif de nos tra-vaux est triple :

proposer un modèle morphologique des scènes sonores envi-ronnementales, fondé sur une étude approfondie de la littéra-ture ayant trait aux mécanismes régissant la perception des sons environnementaux ;

montrer l’utilité d’un tel modèle :

– dans le cadre de l’analyse sensorielle ;

– dans le cadre de l’analyse automatique.

motivations des cas d’études

Pourquoi modéliser une scène sonore ?

Que ce soit dans le domaine de la perception ou de l’apprentissage machine, tout protocole expérimental suppose un niveau de contrôle maximal de l’expérimentateur sur les caractéristiques des stimuli pro-posés. En ce qui concerne les environnements sonores, peu de travaux ont porté sur le développement d’outils pouvant permettre aux cher-cheurs d’agir sur ces stimuli.

Conscients de cette problématique, nous proposons ici un modèle génératif permettant de simuler, à partir d’enregistrements de sons isolés, des scènes sonores dont nous maîtrisons les propriétés struc-turelles, à savoir, l’intensité, la densité et la diversité des sources so-nores en présence. Le modèle envisage la scène sonore comme un objet composite, une somme de sons sources. Le niveau d’abstraction choisi est motivé par les connaissances disponibles sur le système auditif humain.

Fort des banques de données ainsi constituées, nous investissons deux champs d’application. Le premier concerne la perception des paysages sonores, et questionne plus spécifiquement la notion d’agré-ment perçu dans des lieux urbains. L’utilisation de données simulées nous permet d’apprécier finement les contributions de chacune des sources sonores dans l’agrément perçu. Elle nous permet encore de retravailler les scènes en modifiant les paramètres afin de mesurer leurs effets.

Le deuxième concerne la détection automatique des événements so-nores, et propose une méthodologie novatrice afin d’évaluer les per-formances des algorithmes dédiés à cette tâche. Les données simulées se révèlent un outil précieux afin d’évaluer notamment la capacité de généralisation des algorithmes.

motivations des cas d’études

Un cadre applicatif pluridisciplinaire

Comme précédemment évoqué, l’application des données simulées issues de notre modèle d’environnements sonores porte à la fois sur l’analyse sensorielle, et sur l’analyse automatique des environnements.

Par analyse sensorielle, on entend l’ensemble des processus qui constituent le système perceptif de l’homme, système par lequel il comprend son environnement, lui donne sens. Ces processus com-prennent, d’une part, les mécanismes d’acquisition de l’information, d’autre part, les mécanismes de traitement de l’information.

Par analyse automatique on entend l’apprentissage machine. Dans ce domaine, l’objectif des recherches est d’élaborer des algorithmes propres à la simulation de la perception humaine. Ici encore on dis-tingue les étapes d’acquisition de l’information, et de traitement.

Table des matières

i préambule
1 préambule
1.1 Introduction Générale
1.1.1 L’environnement sonore
1.1.2 Pourquoi modéliser une scène
1.2 Motivations des cas d’études
1.2.1 Un cadre applicatif pluridisciplinaire
1.2.2 La perception des paysages sonores
1.2.3 La détection automatique d’événements
1.3 Plan 10
ii un modèle morphologique
2 état de l’art
2.1 Introduction
2.2 Perception et Cognition
2.2.1 Définitions
2.2.2 Théorie classique de la cognition
2.2.3 Une approche ancrée de la cognition
2.2.4 Une approche écologique de la
2.2.5 Discussion
2.3 Structure catégorielle des représentations
2.3.1 La notion de catégorie
2.3.2 Le processus de catégorisation
2.3.3 Organisation de la structure catégorielle
2.3.4 Théories de la catégorisation
2.3.5 Catégorisation et contexte sensoriel
2.3.6 Similarité et catégorisation
2.3.7 Discussion
2.4 L’étude psychologique du système auditif
2.4.1 La psychoacoustique
2.4.2 La psychologie cognitive
2.4.3 Paradigme de la psychologie cognitive
2.4.4 Reproduire l’environnement sonore
2.4.5 Le Soundwalk
2.4.6 Discussion
2.5 Une vue générale du système auditif
2.5.1 La chaîne de traitement
2.5.2 Processus Bottom-up et processus
2.5.3 Discussion
2.6 Analyse de scènes acoustiques
2.6.2 Une approche psychoacoustique
2.6.3 Régularités et processus primitifs
2.6.4 Perception de la forme
2.6.5 Flux auditif et stratégie de groupement
2.6.6 L’approche par les neurosciences
2.6.7 Attention et saillance
2.6.8 Discussion
2.7 L’étude des paysages sonores
2.7.1 La notion de paysage sonore
2.7.2 Approches catégorielle et dimensionnelle
2.7.3 Descripteurs perceptifs des paysages
2.7.4 Catégoriser les sources et paysages
2.7.5 Classifier les sources et environnements
2.7.6 Contributions des différentes sources
2.7.7 Discussion 7
2.8 Événements et textures sonores 79
2.8.1 Définition
2.8.2 Percevoir les textures
2.8.3 Discussion
3 modèle et simulation
3.1 Introduction
3.2 Fondement perceptif du modèle morphologique
3.2.1 L’unité : la source sonore
3.2.2 L’objet : la séquence sonore
3.2.3 Une typologie source-action
3.2.4 Événements et textures
3.3 Description du modèle morphologique
3.3.1 Classe et collection de samples
3.3.2 Séquences de samples
3.3.3 Paramètres
3.3.4 Formalisation du modèle
3.4 Un modèle pour la simulation
3.4.1 Choix de conception
3.4.2 Simulation et perception des paysages
3.4.3 Simulation et détection automatique d’événements
sonores
3.5 Conclusion
iii utilisation pratique de la simulation
4 données simulées en analyse sensorielle
4.1 Introduction
4.1.1 Protocole expérimental basé sur la
4.2 Agrément perçu et composition sémantique
4.2.1 Objectif
4.2.2 Banque de données de sons isolés
4.2.3 Typologie des sources sonores