Classification automatisée de cris de nourrissons
Architecture générale
La classification automatisée des cris est généralement réalisée par apprentissage supervisé. Le système est construit de la façon suivante :
A. Une base de données d’enregistrements de cris est recueillie et annotée. À chaque échantillon est associé une étiquette, indiquant à quelle classe il appartient;
B. Des algorithmes de traitement de signal sont utilisés pour extraire les attributs de chaque échantillon audio. Les attributs sont des caractéristiques pertinentes à la reconnaissance de la classe d’un échantillon;
C. Un algorithme est parfois utilisé pour réduire le nombre d’attributs. Dans certaines situations, cela permet de faciliter l’apprentissage et d’obtenir de meilleures performances;
D. Un classifieur est entraîné à reconnaître la classe des échantillons à partir de leurs attributs. L’entraînement est réalisé à partir d’échantillons provenant de la base de données, ainsi que leurs étiquettes.
Premières tentatives d’automatisation
Petroni et al. (1995) furent, à notre connaissance, les premiers à tenter de développer un système automatisé de classification de cris de nourrissons. Ils entraînèrent différents types de réseaux à reconnaître 3 émotions : La peur, la faim et la douleur. Ils ne considérèrent que la première seconde de la première uttérance suivant le stimulis. Ils éliminèrent les uttérances de moins de 0.75 secondes. Ils découpèrent la première seconde de l’uttérance en 125 trames de 16ms, avec un recouvrement de 50%, puis calculèrent les coefficients du cepstre de fréquences mel (MFCC) de chaque trame. Les uttérances de moins d’une seconde étaient rallongées jusqu’à une seconde en répliquant la dernière trame. Ils obtinrent une précision de classification maximale de 77.9%, démontrant que la reconnaissance automatisée d’émotions dans les cris de nourrissons était possible. Leur échantillons provenaient d’enregistrements de cris collectés à l’hôpital de Montréal pour enfants. Ils utilisèrent la validation croisée à 10 folds pour valider les modèles.
Reconnaissance de pathologies
Recherche mexicaine
Dans les années 2000, un groupe de chercheurs mexicains, menés par le professeur Carlos Alberto Reyes García, réalisa plusieurs études sur le diagnostic automatisé de pathologies par analyse de cri de nouveau-nés.
Ils commencèrent par récolter des enregistrements de cris d’enfants malentendants et d’enfants ayant souffert d’asphyxie. Ils recueillèrent également des cris d’enfants en santé, séparés en trois catégories : Cris de douleur, cris de faim et cris « normaux ».
Les enregistrements rassemblés forment la base de données aujourd’hui connue sous le nom de Baby Chillanto Database.
Une fois la majorité des échantillons recueillis, ils commencèrent à utiliser cette base de données pour entraîner des classifieurs.
Orozco-García & Reyes-García (2003b) s’inspirèrent des travaux de Petroni et al. (1995) pour mettre au point une procédure d’extraction d’attributs qui fut ensuite réutilisée dans pratiquement toutes le recherches de ce groupe, avec des variations mineures. Cette procédure est décrite ci-dessous :
A. Les enregistrements de cris d’enfants sont segmentés en échantillons d’une durée variant de 0.4 à 3 secondes;
B. Chaque échantillon est ensuite séparé en trames d’une durée 50 ou 100 millisecondes, puis une transformée est appliquée sur chacune des trames, afin de produire les attributs de l’échantillon. Deux types de transformée sont considérés. L’une d’entre elles produit les coefficients du cepstre de fréquences mel (MFCC). L’autre produit les coefficients de prédiction linéaire (LPC);
C. L’analyse en composantes principales (ACP) est souvent utilisée par la suite pour réduire le nombre d’attributs.
Les MFCC surpassèrent les LPC dans les études de Orozco-García & Reyes-García (2003a), Orozco-García & Reyes-García (2003b) et Reyes-Galaviz & Reyes-García (2004). De plus, Orozco-García & Reyes-García (2003b) obtinrent des performances égales ou supérieures lorsqu’ils firent passer le nombre de MFCC de 21 à 16. Les études subséquentes utilisèrent donc les 16 MFCC comme attributs.
Le groupe de recherche se basa sur ces attributs standards pour concentrer leurs efforts sur le classifieur. Ils utilisèrent la base de données Baby Chillanto pour entraîner plusieurs types de modèles à remplir diverses tâches similaires.
Orozco-García & Reyes-García (2003a) et Orozco-García & Reyes-García (2003b) utilisèrent des percerptrons multicouches (MLP) pour reconnaître les enfants atteints de surdité. Ils utilisèrent la validation croisée à 10 folds et obtinrent une précision maximale de 97.43%. Reyes-Galaviz & Reyes-García (2004) et Reyes-Galaviz et al. (2005) entraînèrent quant à eux des TDNN (time delay neural network) à reconnaître trois classes : les enfants malentendants, les enfants ayant souffert d’asphyxie et les enfants en santé. Ils obtinrent une précision maximale de 98.67%, en validant leur modèle par la méthode holdout (Goodfellow et al., 2016). Reyes-Galaviz et al. (2008) effectuèrent la même expérience, mais pour une tâche légèrement différente : il n’y avait que deux classes, l’une contenant les cris d’enfants souffrants de surdité ou d’asphyxie et l’autre des cris d’enfants en santé. Ils obtinrent une précision de 100%. Par contre, lorsqu’ils entraînèrent leur système sur une autre base de données, provenant de Cuba, ils obtinrent des résultats nettement inférieurs. Aussi, ils utilisèrent un algorithme évolutif pour réduire la taille des attributs et obtinrent de bien meilleurs résultats qu’avec l’ACP.
Suaste-Rivas et al. (2004a) et Suaste-Rivas et al. (2004b) se tournèrent vers la logique floue. Ils entraînèrent des FRNN (fuzzy relational neural networks) à reconnaître trois classes : les enfants malentendants, les enfants ayant souffert d’asphyxie et les enfants en santé. L’espace de caractéristiques était divisé en 7 termes linguistiques. Parmi les fonctions d’appartenance testées, la fonction trapézoïdale produisit les meilleurs résultats, avec une précision de 98%. Les modèles furent validés par la méthode holdout.
INTRODUCTION |