MÉTHODES MISES EN ŒUVRE

MÉTHODES MISES EN ŒUVRE

Méthodes retenues

La figure 4.1 montre la chronologie du travail réalisé sur les méthodes de REA (reconnaissance des événements acoustiques) retenues dans cette thèse. L’équipe ANASON de l’ancien laboratoire de l’ESIGETEL, LRIT (Laboratoire de Recherche et d’Innovation Technologique à Fontainebleau), avait déjà travaillé sur un système basé sur des GMMs. Notre première motivation fut donc d’explorer d’autres techniques. L’intérêt pour les SVMs comme méthode de classification nous a incités à prendre cette direction ; c’est-à-dire, à utiliser une méthode discriminative comme alternative aux GMMs qui représentent un modèle génératif. Dans ce qui suit, nous donnons une brève description des méthodes retenues.

SVM-frame-level

La première méthode testée, que nous appelons SVM-frame-level, est comparable aux méthodes décrites dans la section 3.3.3. Autrement dit, les vecteurs acoustiques étaient directement utilisés en entrée d’un SVM. Après maintes expérimentations (tests avec plusieurs types de noyaux, tests de plusieurs schémas de classification multi-classe, etc.) il s’est avéré que, pour une utilisation efficace de cette approche [Sehili et al., 2010], mis à part la normalisation des données, les meilleurs paramètres de chaque modèle SVM doivent être déterminés par recherche exhaustive [Hsu et al., 2010].

À moins que l’on réduise la taille des données (au prix d’une perte en information, en utilisant K-means par exemple), cette recherche peut être extrêmement gourmande en temps de calcul. D’après notre expérience, une semaine nous a été nécessaire, en utilisant un réseau de cinq ordinateurs de bureau (tournant avec un processeur de 2.50GHz × 4 et 4Go de mémoire chacune) , pour terminer les traitements. L’utilisation de plusieurs coefficients (en plus des MFCC), qui augmenterait la taille des données, n’était envisageable avec cette méthode.

Description du noyau SVM-GSL

L’objectif des noyaux SVM de discrimination de séquences est d’éviter l’utilisation des vecteurs acoustiques directement en entrée d’un SVM. [Fauve et al., 2007] donnent une définition générale d’un noyau SVM de discrimination de séquences. Pour deux séquences de vecteurs X et Y , le noyau est défini par : K(X, Y ) = Φ(X) tR−1Φ(Y ) (4.1) où Φ(X) est une transformation (Mapping) de la séquence X en un vecteur appartenant à un autre espace vectoriel et R est une matrice diagonale de normalisation.

De ce fait, pour obtenir un noyau de discrimination de séquences, nous avons donc besoin de définir la fonction de transformation X → Φ(X) et la matrice de normalisation R. Moreno [Moreno et al., 2003] proposait ce qui pourrait être vu comme l’ancêtre du noyau SVMGSL. La distance entre deux séquences X et Y est définie par la divergence de Kullback-Leibler des modèles GMM, λX et λY , qui les représentent respectivement.

N’étant pas symétrique, la divergence Kullback-Leibler ne satisfait pas les conditions de Mercer d’une fonction de noyau SVM (symétrique et semi-définie positive). Au lieu d’utiliser la divergence de Kullback-Leibler, [Campbell et al., 2006b] proposent d’utiliser une approximation de celle-ci. Le noyau SVM-GSL est, de ce fait, défini par : K(λX, λY ) = X K k=1 ( √ wkΣ −(1/2) k µ X k ) T ( √ wkΣ −(1/2) k µ Y k ) = ΦGSL(X)R−1 GSLΦGSL(Y ) (4.2) La transformation ΦGSL(X) (équation 4.3) est définie par les vecteurs moyens µ X k (k = 1, . . . , K) du modèle GMM, λX, adapté d’un modèle GMM universel λUBM en utilisant la séquence X.