Découverte d’unités linguistiques à l’aide de méthodes d’apprentissage non supervisé
Modélisation supervisée d’unités linguistiques de parole
Plusieurs niveaux peuvent être concernés dans une tâche de modélisation d’unités linguistiques de parole : la phrase, le mot et les unités sous-lexicales (comme les phonèmes). Reconnaissance automatique de parole continue L’application la plus connue en traitement de la parole est probablement la Reconnaissance Automatique de la Parole (RAP ou, en anglais : Automatic Speech Recognition, ASR). L’ASR est généralement composé d’un modèle acoustique et d’un modèle de langue. De nombreux outils existent pour réaliser des modèles de reconnaissance automatique de la parole, comme Kaldi (POVEY, GHOSHAL et al. 2011). Kaldi regroupe un ensemble d’outils pour chaque étape, dont la modélisation acoustique. Parmi les outils proposés, nous pouvons citer les mélanges de lois gaussiennes (Gaussian Mixture Models, GMM) (BILMES et al. 1998) et leur version améliorée par l’utilisation de sous-espaces (Subspace Gaussian Mixture Models, SGMM) (POVEY, Lukáš BURGET et al. 2011) ou encore les modèles de Markov cachés (Hidden Markov Models, HMM) (RABINER 1989). Plus récemment, la renaissance des réseaux de neurones et en particulier des réseaux profonds (Deep Neural Network, DNN) et du deep learning en général a débouché sur des progrès significatifs en RAP. Les DNN ont d’abord été utilisés dans des systèmes hybrides HMM-DNN pour calculer les probabilités d’émission des états des HMM (G. HINTON et al. 2012). Plus récemment, des approches dites end-to-end essaient de se passer totalement des HMM, comme par exemple les systèmes « DeepSpeech » n’utilisant que des réseaux de neurones (HANNUN et al. 2014) illustrés figure 2.1. L’ajout d’un modèle de langue N-gram améliore néanmoins les résultats de manière significative en forçant à obtenir des phrases plus cohérentes. La reconnaissance automatique de la parole a de nombreuses applications. Elle peut par exemple servir pour faire du sous-titrage en direct (STADTSCHNITZER et SCHMIDT 2015) ou aussi être utilisée par des outils d’assistance pour conférence (ASSAYAG et al. 2015). Elle peut même servir de support à des études linguistiques, par exemple sur les variations entre les réalisations des phonèmes.
Reconnaissance automatique de mots
La détection de termes parlés (Spoken Term Detection, STD) (MANDAL, K. P. KUMAR et P. MITRA 2014) est une tâche proche de l’ASR : il ne s’agit plus de reconnaître tout ce qui est dit mais seulement de détecter l’utilisation de certains mots. La STD étant une variante de l’ASR, elle peut être réalisée à l’aide de modèles de reconnaissance de la parole, de préférence à large vocabulaire . Un exemple d’application d’une STD utilisant un système LVCSR est la détection des mots anglais dans des conversations multilingues . Les méthodes non supervisées nous intéressent davantage : les techniques Queryby-Example (QBE), qui peuvent utiliser des mesures de similarité basées sur des déformations temporelles au niveau des fenêtres (trames) ou au niveau des segments , comme illustré dans la figure 2.2. La DTW cherche la distorsion permettant d’obtenir la plus faible distance entre deux segments et permet ainsi de comparer des segments audio de tailles différentes. D’autres techniques utilisant des modèles supervisés peuvent être utilisées, telle que la modélisation de phonèmes (SZOKE, SCHWARZ et al. 2005), notamment basée sur les réseaux de neurones, ou de sous-mots (SZOKE, Lukás BURGET et al. 2008)
Reconnaissance automatique de phonèmes
Les outils de classification des phonèmes peuvent être ensuite utilisés par d’autres tâches, notamment par l’ASR. Selon l’application, il n’est pas nécessaire d’être trop précis sur les différentes prononciations des phonèmes et certaines classes phonétiques proches peuvent être regroupées lors du calcul du taux de classification (ou du taux d’erreur), passant de 61 à 39 classes sur TIMIT et permettant évidemment d’obtenir de meilleurs scores (K.-F. LEE et HON 1989). Dans le domaine de la classification phonétique, les réseaux de neurones obtiennent parmi les meilleurs scores. Joint à un GMM, un réseau de neurone profond a permis d’obtenir un peu moins de 20% d’erreur phonétique (Phone Error Rate, PER) sur TIMIT (TRAVADI et NARAYANAN 2015). Il existe plusieurs réseaux différents, tels que les réseaux denses (Multi-Layer Perceptron, MLP), les réseaux convolutionnels (Convolutional Neural Network, CNN) (LECUN, BENGIO et al. 1995) et les réseaux récurrents (Recurrent Neural Network, RNN) (DE MULDER, BETHARD et MOENS 2015). Des expériences ont comparé ces différents réseaux durant lesquelles les MLP se sont montrés moins adaptés à la tâche de reconnaissance de phonèmes que les CNN (PALAZ, COLLOBERT et DOSS 2013 ; PALAZ, COLLOBERT et al. 2015). Les RNN permettent quant à eux de prendre un plus grand contexte en considération et permettent d’obtenir seulement 17,7% d’erreur sur un ensemble de test de TIMIT (GRAVES, MOHAMED et G. HINTON 2013). Divers modèles de réseaux récurrents existent, comme ceux utilisant des couches LSTM (ARISOY et SARAÇLAR 2015) ou encore ceux utilisant à la fois des couches de convolution et des couches récurrentes (RCNN) (HU et al. 2015). Des réseaux moins courants peuvent aussi être utilisés avec succès pour l’ASR, illustrés figure 2.3. Nous pouvons par exemple citer les réseaux d’ondelettes (JEMAI et al. 2015), schéma de gauche. Ce sont des réseaux de neurones de trois couches : une couche d’entrée, une couche cachée dont les neurones sont des fonctions d’ondelettes et une couche de sortie. Nous pouvons aussi mentionner les réseaux à décharge, aussi appelés réseaux impulsionnels ou de spike (Spiking Neural Network, SNN) (LOISELLE 2004 ; LOISELLE et al. 2005 ; TAVANAEI et MAIDA 2017), schéma de droite. Ce sont des réseaux qui « accumulent » les valeurs reçues jusqu’à dépasser un seuil et se « décharger » en envoyant une impulsion.
1 Introduction |