Modèles de vérification de l’identité

Modèles de vérification de l’identité

Présentation des systèmes de vérification de l’identité

Système de vérification du locuteur Chaque individu possède une signature vocale propre. Cette signature dépend des caractéristiques anatomiques et comportementales. La modélisation d’un locuteur consiste à apprendre une empreinte vocale qui permet de le différencier des autres locuteurs. L’une des grandes difficultés de la modélisation d’un locuteur est la variabilité de la voix aux conditions physiques (maladie, croissance) et environnementales (bruit de fond, type de capteur, etc). Une autre difficulté est la variabilité de la voix selon le scénario d’enregistrement (rire, colère, etc). Dans nos expériences, nous avons utilisé un système de vérification de l’identité du locuteur développé par OrangeLabs. Cet outil est basé sur une modélisation par mixture de gaussiennes GMMs avec un modèle du monde (UBM ) [Reynolds et al., 2000]. La figure 6.1 présente les étapes de modélisation du locuteur en GMMs. 109 Modèles de vérification de l’identité 6.1 Présentation des systèmes de vérification de l’identité 110 Figure 6.1 – Détail de la modélisation du locuteur en modèle de mixture de gaussiennes GMMs Modélisation du locuteur Extraction des paramètres Premièrement, les coefficients MFCCs sont extraits toutes les 16ms sur des fenˆetres glissantes de 32ms. Chaque trame est associée à un vecteur de paramètres composé de l’énergie et des 13 premiers MFCC auxquels on ajoute les dérivées premières et secondes. Le vecteur paramètres extraits est de dimension dim = 42. Segmentation Parole/Silence Afin de ne conserver que les zones de parole, les trames de silence et de parole son séparées. Un bref état de l’art des méthodes de segmentation est présenté dans la partie 1.2.2 du chapitre 1. La méthode de segmentation en silence/parole utilisée est basée sur une modélisation multi-gaussienne bi-classes des coefficients MFCCs. Modèle du monde (UBM) En raison de la grande variabilité de la voix, les échantillons qui servent à la modélisation d’un locuteur ne sont pas suffisant pour apprendre un modèle qui permette de le différencier des autres locuteurs. Un modèle du monde (Universal Background Model) est un modèle GMM global entraˆıné sur une grande base de données de parole de plusieurs personnes différentes de manière à couvrir le plus de variabilité dans la voix. Un mélange de gaussiennes est une somme pondérée de n densités gaussiennes. Les paramètres du modèles UBM sont appris en maximisant la vraisemblance selon l’algorithme EM [Dempster et al., 1977]. Dans nos expériences, la dimension des GMM est de n = 256.

Système de vérification de l’identité visuelle

Les informations visuelles que nous avons étudiées au cours de nos expériences sont le visage et le costume. Système de vérification du visage Nous nous sommes basés sur le système développé dans l’équipe TSI de Telecom ParisTech par Hervé Bredin qui a été intégré dans l’outil de référence de l’identité des visages parlants présenté dans [Bredin et al., 2006]. Ce système est décrit en détails dans [Bredin, 2007]. L’approche utilisée pour la vérification de l’identité du visage est basée sur les EigenFaces [Turk and Pentland, 1991]. Ce modèle utilise la redondance de l’information apportée par la vidéo de manière à extraire les paramètres du visage dans chaque trame. Apprentissage du modèle de visage Premièrement, un détecteur de Viola&Jones [Viola and Jones, 2001] est utilisé afin de détecter le visage dans chaque trame de la séquence. Ensuite chaque visage 6.1 Présentation des systèmes de vérification de l’identité 112 détecté est normalisé : alignement des yeux horizontalement (méthode de détection des yeux est décrite dans [Fasel et al., 2005]), redimensionnement et suppression des pixels de l’arrière plan. Chaque visage détecté est projeté sur l’espace des visages appris par ACP à partir d’une grande base de données de visage suivant la méthode EigenFaces. La figure 6.2 montre un exemple de projection d’un vecteur de paramètres (visage candidat) dans l’espace des visages. Pour une séquence de visages, le vecteur de paramètres est la concaténation des visages projetés. Afin de bien modéliser la séquence, les N meilleurs visages sont sélectionnés selon le critère DFFS (Distance From Face Space). On notera xλ V = {xλ 1 , .., xλ N } l’ensemble des vecteurs de paramètres du visage xλ i extraits de la séquence d’apprentissage de la personne λ. Figure 6.2 – Projection d’un visage candidat dans l’espace de visage Vérification du visage Au moment d’une vérification de l’identité d’une séquence test x, les paramètres du visage sont extraits pour chaque visage de la séquence de test de la mˆeme manière que lors de l’apprentissage du modèle. Soit xV = {x1, .., xM} l’ensemble de vecteurs des paramètres extraits de la séquence test. Le score de vérification de l’identité du visage (noté SV ) est obtenu en mesurant la distance Mahalanobis entre chaque vecteur de paramètres de test avec chaque vecteurs de paramètres de la séquence d’apprentissage. La distance Mahalanobis entre les deux vecteurs xi et xλ j est calculé Chapitre 6 : Modèles de vérification de l’identité 113 de la manière suivante : M ahalanobis(xi, xλ j ) = � (xi − xλ j )� Σ−1 λ (xi − xλ j ) (6.2) avec Σλ la matrice de covariance de vecteur xλ V = {xλ 1 , .., xλ N }. Une fois que les M × N distances sont calculées, le score de vérification de l’identité du visage SV (xV |λ) est obtenu en moyennant les distances calculées. Système de vérification du costume Le costume ne constitue pas une information très robuste pour l’identification des personnes. Ceci dit, en l’absence de notion d’imposteur (personne qui tente de prendre l’identité de quelqu’un d’autre), il est possible d’utiliser le costume comme information de discriminante à condition que les personnes ne changent pas de vˆetement entre la séquence d’apprentissage et de test. Modèle de costume Soit x une séquence audio-visuelle d’apprentissage de la personne de la personne λ contenant L trames. Le costume est détecté dans chaque trame de la séquence d’apprentissage selon le principe présenté dans la sous-section 4.2.1 du chapitre 4. Chaque costume détecté est représenté par l’histogramme des couleurs (codage RGB). Le modèle de costume est la concaténation des histogrammes de couleurs des costumes détectés noté xλ C{xλ 1 , .., xλ L}. Vérification par le costume Au moment d’une vérification de l’identité d’une séquence test x de taille K, les paramètres du costume sont extraits pour chaque costume de la séquence de test de la mˆeme manière que lors de l’apprentissage du modèle. Soit xC = {x1, .., xK} l’ensemble de vecteurs des paramètres extraits de la séquence test. Une distance Euclidienne est calculée entre chaque vecteur de paramètres de test et chaque vecteur de paramètres de la séquence d’apprentissage. Le score de vérification de l’identité par le costume SC(xC|λ) est la moyenne des distances calculées SC(xC|λ) = 1 K × L � K i=1 � L j=1 ||xi − xλ j ||.

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *