RECONNAISSANCE DU SON
Sons de l’environnement
Les sons intéressants pour un système de reconnaissance des événements acoustiques dépendent largement des applications. Chaque application est souvent conçue autour d’un nombre limité de sons et considère tout le reste comme du bruit.
Il est indéniablement difficile d’établir une liste de tous les sons de l’environnement, mais VanDerveer [VanDerveer, 1979] propose une liste de quatre points permettant d’identifier un son de l’environnement : 1. Il est produit par des événements réels. 2. Il a un sens en vertu d’événements causals. 3.
Il est plus compliqué que les sons purs générés en laboratoire. 4. Il ne fait pas partie d’un système de communication telle que la parole. Cette définition fait bien la distinction entre la parole et les autres sons.
De façon plus générale, elle exclut tout son faisant partie du système de communication humaine. Il y a certainement plus que la parole dans la communication humaine «sonore ». Un raclement de gorge, un sifflement ou encore un rire sont autant d’exemples de sons qui peuvent, dans certains cas, servir de moyen de communication.
Dans ce travail nous considérons tous ces types de sons, y compris la parole, comme des sons de l’environnement. Même si notre objectif n’est pas de transcrire la parole mais d’en détecter la présence. Pour une meilleure lisibilité et compréhension du domaine étudié, il est également courant de définir les sons de l’environnement sous forme de taxonomie, en plaçant les sons dans des groupes ou des sous-groupes .
David Gerhard [Gerhard, 2003] propose une taxonomie pour les sons de l’environnement regroupés de façon à se rapprocher d’une perspective humaine de la perception du son (figure 2.1). La distinction est d’abord faite entre les sons audibles et ceux non audibles. Les sons audibles sont ensuite subdivisés en cinq catégories :
bruit, son naturel, son artificiel, parole et musique. Selon l’auteur, il est difficile de donner une définition objective au bruit. Un genre musical apprécié par une personne peut être perçu comme un bruit par une autre personne.
Un son naturel est tout son produit sans aucune influence humaine. Les sons artificiels sont caractérisés par leur source et leur « intention ». Un son artificiel peut ainsi être produit dans l’intention de transmettre un message (sonnerie de téléphone, sirène d’une ambulance, etc.); ce n’est pas le cas d’un marteau-piqueur par exemple. Enfin, la parole, qu’elle soit naturelle ou synthétisée, ainsi que la musique sont deux types de sons avec un nombre très important d’éléments de classification pour les humains.
Elles sont placées dans deux catégories distinctes. Cette taxonomie, certes intéressante, ne nous est pas d’une grande aide dans notre projet. Première ment, elle inclut un nombre très considérable de sons naturels et artificiels qui, à l’exception d’une éventuelle provenance de la télévision ou de la radio, ne risquent pas de se produire régulièrement dans la maison de la personne âgée (chutes d’arbres dans les forêts tropicales ou bruit d’une tronçonneuse, par exemple).
Deuxièmement, en vue de limiter notre ensemble de sons d’intérêt, beaucoup de sons seront considérés comme du bruit. Exemples de ces sons sont : bruit de la pluie qui bat contre les vitres de la maison, martèlement chez les voisins, insectes, etc. Troisièmement, elle n’aborde pas les caractéristiques physiques de bas niveau du signal, aspect important pour distinguer certains groupes de sons.
Dans cet esprit, nous considérons la taxonomie suivante (figure 2.2) pour le projet SWEET-HOME. Même pour une personne vivant seule, il est très difficile de cerner tous les sons, et encore plus d’identifier les sons intéressants. Cette taxonomie est largement influencée par les objectifs du projet, mais surtout par notre expérience d’indexation du corpus du projet enregistré dans une maison intelligente (chapitre 4).
En premier lieu, une distinction est faite entre les sons humains et les autres sons. Les sons humains seraient plus pertinents pour reconnaître des situations de détresse, mais cela n’est que partiellement correct.