Classification automatisée de cris de nourrissons

Classification automatisée de cris de nourrissons

Architecture générale

La classification automatisée des cris est généralement réalisée par apprentissage supervisé. Le système est construit de la façon suivante :
A. Une base de données d’enregistrements de cris est recueillie et annotée. À chaque échantillon est associé une étiquette, indiquant à quelle classe il appartient;
B. Des algorithmes de traitement de signal sont utilisés pour extraire les attributs de chaque échantillon audio. Les attributs sont des caractéristiques pertinentes à la reconnaissance de la classe d’un échantillon;
C. Un algorithme est parfois utilisé pour réduire le nombre d’attributs. Dans certaines situations, cela permet de faciliter l’apprentissage et d’obtenir de meilleures performances;
D. Un classifieur est entraîné à reconnaître la classe des échantillons à partir de leurs attributs. L’entraînement est réalisé à partir d’échantillons provenant de la base de données, ainsi que leurs étiquettes.

Premières tentatives d’automatisation

Petroni et al. (1995) furent, à notre connaissance, les premiers à tenter de développer un système automatisé de classification de cris de nourrissons. Ils entraînèrent différents types de réseaux à reconnaître 3 émotions : La peur, la faim et la douleur. Ils ne considérèrent que la première seconde de la première uttérance suivant le stimulis. Ils éliminèrent les uttérances de moins de 0.75 secondes. Ils découpèrent la première seconde de l’uttérance en 125 trames de 16ms, avec un recouvrement de 50%, puis calculèrent les coefficients du cepstre de fréquences mel (MFCC) de chaque trame. Les uttérances de moins d’une seconde étaient rallongées jusqu’à une seconde en répliquant la dernière trame. Ils obtinrent une précision de classification maximale de 77.9%, démontrant que la reconnaissance automatisée d’émotions dans les cris de nourrissons était possible. Leur échantillons provenaient d’enregistrements de cris collectés à l’hôpital de Montréal pour enfants. Ils utilisèrent la validation croisée à 10 folds pour valider les modèles.

Reconnaissance de pathologies

Recherche mexicaine
Dans les années 2000, un groupe de chercheurs mexicains, menés par le professeur Carlos Alberto Reyes García, réalisa plusieurs études sur le diagnostic automatisé de pathologies par analyse de cri de nouveau-nés.

Ils commencèrent par récolter des enregistrements de cris d’enfants malentendants et d’enfants ayant souffert d’asphyxie. Ils recueillèrent également des cris d’enfants en santé, séparés en trois catégories : Cris de douleur, cris de faim et cris « normaux ».

Les enregistrements rassemblés forment la base de données aujourd’hui connue sous le nom de Baby Chillanto Database.

Une fois la majorité des échantillons recueillis, ils commencèrent à utiliser cette base de données pour entraîner des classifieurs.

Orozco-García & Reyes-García (2003b) s’inspirèrent des travaux de Petroni et al. (1995) pour mettre au point une procédure d’extraction d’attributs qui fut ensuite réutilisée dans pratiquement toutes le recherches de ce groupe, avec des variations mineures. Cette procédure est décrite ci-dessous :

A. Les enregistrements de cris d’enfants sont segmentés en échantillons d’une durée variant de 0.4 à 3 secondes;

B. Chaque échantillon est ensuite séparé en trames d’une durée 50 ou 100 millisecondes, puis une transformée est appliquée sur chacune des trames, afin de produire les attributs de l’échantillon. Deux types de transformée sont considérés. L’une d’entre elles produit les coefficients du cepstre de fréquences mel (MFCC). L’autre produit les coefficients de prédiction linéaire (LPC);

C. L’analyse en composantes principales (ACP) est souvent utilisée par la suite pour réduire le nombre d’attributs.

Les MFCC surpassèrent les LPC dans les études de Orozco-García & Reyes-García (2003a), Orozco-García & Reyes-García (2003b) et Reyes-Galaviz & Reyes-García (2004). De plus, Orozco-García & Reyes-García (2003b) obtinrent des performances égales ou supérieures lorsqu’ils firent passer le nombre de MFCC de 21 à 16. Les études subséquentes utilisèrent donc les 16 MFCC comme attributs.

Le groupe de recherche se basa sur ces attributs standards pour concentrer leurs efforts sur le classifieur. Ils utilisèrent la base de données Baby Chillanto pour entraîner plusieurs types de modèles à remplir diverses tâches similaires.

Orozco-García & Reyes-García (2003a) et Orozco-García & Reyes-García (2003b) utilisèrent des percerptrons multicouches (MLP) pour reconnaître les enfants atteints de surdité. Ils utilisèrent la validation croisée à 10 folds et obtinrent une précision maximale de 97.43%. Reyes-Galaviz & Reyes-García (2004) et Reyes-Galaviz et al. (2005) entraînèrent quant à eux des TDNN (time delay neural network) à reconnaître trois classes : les enfants malentendants, les enfants ayant souffert d’asphyxie et les enfants en santé. Ils obtinrent une précision maximale de 98.67%, en validant leur modèle par la méthode holdout (Goodfellow et al., 2016). Reyes-Galaviz et al. (2008) effectuèrent la même expérience, mais pour une tâche légèrement différente : il n’y avait que deux classes, l’une contenant les cris d’enfants souffrants de surdité ou d’asphyxie et l’autre des cris d’enfants en santé. Ils obtinrent une précision de 100%. Par contre, lorsqu’ils entraînèrent leur système sur une autre base de données, provenant de Cuba, ils obtinrent des résultats nettement inférieurs. Aussi, ils utilisèrent un algorithme évolutif pour réduire la taille des attributs et obtinrent de bien meilleurs résultats qu’avec l’ACP.

Suaste-Rivas et al. (2004a) et Suaste-Rivas et al. (2004b) se tournèrent vers la logique floue. Ils entraînèrent des FRNN (fuzzy relational neural networks) à reconnaître trois classes : les enfants malentendants, les enfants ayant souffert d’asphyxie et les enfants en santé. L’espace de caractéristiques était divisé en 7 termes linguistiques. Parmi les fonctions d’appartenance testées, la fonction trapézoïdale produisit les meilleurs résultats, avec une précision de 98%. Les modèles furent validés par la méthode holdout.

Table des matières

INTRODUCTION
CHAPITRE 1 CRIS DE NOURRISSONS
1.1 Modèle physio-acoustique
1.1.1 Système vocal humain
1.1.1.1 Système subglottal
1.1.1.2 Système glottal
1.1.1.3 Système supraglottal
1.1.2 Modélisation
1.2 Analyse spectrographique
1.2.1 Paramètres acoustiques pertinents
1.2.1.1 Durée
1.2.1.2 Fréquence fondamentale (F0)
1.2.1.3 Latence
1.2.1.4 Fréquences de résonnance
1.2.2 Motifs spectrographiques
1.2.2.1 Mélodie
1.2.2.2 Double harmonic break, biphonation, furcation
1.2.2.3 Glottal Roll et vibrato
1.2.2.4 Noise concentration
1.2.3 Symptômes spectrographiques de certaines pathologies
1.3 Classification automatisée de cris de nourrissons
1.3.1 Architecture générale
1.3.2 Premières tentatives d’automatisation
1.3.3 Reconnaissance de pathologies
1.3.3.1 Recherche mexicaine
1.3.3.2 Recherche malaisienne
1.3.3.3 Autres études
1.3.3.4 Résumé
CHAPITRE 2 THÉORIE
2.1 Coefficients du cepstre mel (MFCC)
2.1.1 Échelle mel et spectre mel
2.1.2 Cepstre
2.1.3 Cepstre de fréquences mel
2.1.4 Post-traitement
2.2 Apprentissage machine et réseaux de neurones
2.2.1 Notions générales
2.2.1.1 Algorithmes d’apprentissage
2.2.1.2 Classification supervisée
2.2.2 Données
2.2.3 Modèles
2.2.3.1 Réseaux de neurones
2.2.3.2 Réseaux MLP
2.2.3.3 Réseaux convolutionnnels
2.2.3.4 Réseaux récurrents et cellules LSTM
2.2.4 Fonction de coût
2.2.5 Entraînement et optimisation
2.2.5.1 Descente du gradient
2.2.5.2 Rétropropagation
2.2.5.3 Batch normalisation
2.2.6 Généralisation
2.2.6.1 Sous-apprentissage, surapprentissage et capacité
2.2.6.2 Régularisation
2.2.6.3 Désintégration des poids
2.2.6.4 Arrêt précoce
2.2.6.5 Dropout
2.2.6.6 Quantité de données
2.2.7 Hyperparamètres et validation
2.2.7.1 Validation par la méthode holdout
2.2.7.2 Validation croisée à k folds
2.2.7.3 Validation croisée imbriquée
2.2.8 Optimisation des hyperparamètres
2.2.8.1 Optimisation par recherche en grille
2.2.8.2 Optimisation par recherche aléatoire
CHAPITRE 3 EXPÉRIENCES
3.1 Base de données
3.2 Sélection des données
3.2.1 Contraintes sur les données utilisées
3.2.2 Sélection des pathologies étudiées
3.2.3 Définition des datasets et de leurs classes
3.3 Prétraitement
3.3.1 Segmentation
3.3.2 Normalisation des segments
3.3.3 Échantillonnage des blocs
3.3.4 Partition en k folds
3.4 Extraction des attributs
3.5 Classification
3.5.1 Modèle MLP
3.5.2 Modèle CNN
3.5.3 Modèle LSTM
3.6 Entraînement
3.6.1 Algorithme d’entraînement des classifieurs
3.6.2 Évaluation des classifieurs
3.7 Outils
CHAPITRE 4 PRÉSENTATION DES RÉSULTATS ET DISCUSSION
4.1 Entraînement et optimisation des hyperparamètres
4.1.1 Exemple de test
4.1.2 Exemple de recherche aléatoire
4.2 Présentation des résultats
4.3 Quantité de données disponibles
4.4 Comparaison des méthodes de partition
4.4.1 Biais de validation
4.4.1.1 Surapprentissage
4.4.1.2 Mesure biaisée de la généralisation
4.4.2 Méthodes de partitions employées dans d’autres recherches
4.4.2.1 Partition pour le dépistage de plusieurs pathologies différentes
4.5 Comparaison des classifieurs
4.6 Comparaison des tâches
4.7 Comparaison avec le système de référence
4.8 Réseaux de neurones
4.9 Attributs MFCC
CONCLUSION