Système de structuration de documents audio-visuels
Système basé sur l’information audio
Dans cette partie, le but est de construire un index de locuteur à partir d’un document audio en détectant et regroupant les interventions sonores des personnes. Nous avons utilisé un système développé en interne à OrangeLabs qui s’inspire de la méthode présenté dans [Deléglise et al., 2005]. Cette méthode de structuration est divisée en deux phases. Une première phase de segmentation et regroupement disjoints est effectuée. Nous avons utilisé une méthode basée sur un algorithme de regroupement hiérarchique ascendant avec un critère BIC (Bayesian Information Criterion) [Barras et al., 2006]. Ensuite, de manière itérative, une nouvelle segmentation et regroupement est effectuée basée sur un modèle HMM évolutif. 67 Système de structuration de documents audio-visuels
Système basé sur l’information audio
Traitements préliminaires
Premièrement, les coefficients MFCC (Mel-frequency cepstral coefficients) sont extraits sur une fenˆetre de 32ms chaque 16ms. Le vecteur des paramètres de dimension Dim = 36 est composé des 12 premiers coefficients MFCCs et des dérivés premières et secondes. Ensuite, une première segmentation du signal en parole/non parole est effectuée afin de ne conserver que les séquences des interventions sonores des personnes. La méthode utilisée est basée sur une classification à deux classes parole et non parole. Les classes sont modélisées par une mixture de 64 gaussiennes (GMMs).
Première phase : structuration et segmentation disjoints Segmentation
Cette phase consiste à découper chaque segment classé comme étant de la parole en petits segments contenant un seul locuteur. La méthode de segmentation est basée sur la mesure de similarité selon le critère BIC [Barras et al., 2006] entre toutes les deux fenˆetres consécutives de taille fixe afin de détecter un changement de locuteur. Regroupement Une fois que la séquence audio est découpée en segments supposés contenir chacun un seul locuteur, la phase de regroupement consiste à rassembler tous les segments d’un mˆeme locuteur. Nous avons utilisé une méthode de regroupement hiérarchique ascendante basée sur le critère BIC (voir la description dans le chapitre 1). A chaque ` itération, les deux segments qui présentent un minimum de distance selon le critère BIC sont regroupés. L’algorithme s’arrˆete lorsque toutes les variations ΔBIC entre les groupes dépassent un seuil théorique S fixé à 0.
Seconde phase : structuration et segmentation conjoints
Les résultats de la première phase de segmentation et regroupement sont utilisés pour initialiser un modèle HMM dans lequel chaque état représente un locuteur et les transitions représentent le passage d’un locuteur à un autre. Chaque Cluster obtenu dans la première phase est utilisé pour apprendre un modèle de voix GMM (64 gaussiennes). Un décodage Viterbi permet d’obtenir une nouvelle segmentation (détection de changements de locuteurs par les transitions du HMM ). A partir de cette nouvelle ` segmentation, un nouveau regroupement des Clusters est effectué. Ce regroupement est basé sur le critère CLR (Cross Liklihood Ratio) [Deléglise et al., 2005]. Les nouveaux Clusters permettent de faire évoluer le nombre d’états du HMM. les GMMs sont ré-estimés à partir de la nouvelle segmentation et regroupement. De manière itérative, le HMM est réinitialisé afin de re-segmenter la séquence audio. Ce processus de segmentation et regroupement est réitéré jusqu’à stabilisation du découpage. A la fin du processus de regroupement, chaque segment audio-visuel ` x dont on a extrait le vecteur xA de paramètres acoustiques est associé à une étiquette audio notée A(xA) = ai parmi les K étiquettes audio ai=1,..,K détectées automatiquement. Le nombre d’étiquettes audio peut ˆetre supérieur au nombre exact de locuteurs intervenant dans le document sonore.
Résultats et discussion
A la fin du processus de segmentation et regroupement, chaque segment détecté ` automatiquement est attribué à un groupe audio. Le système de structuration basé sur l’information audio est évalué sur les cinq épisodes (S1, .., S5) de la base de données TSDB présenté dans le chapitre 2. Afin de mieux analyser la réponse du système, nous présentons les résultats par plusieurs mesures : taux de perte (MDR) et composition de la réponse automatique CDR + EDR + FAR, et par les mesures Précision + Rappel + F-mesure (voir chapitre 3). Le nombre de Clusters détectés automatiquement En analysant les groupes audio détectés, on constate que le système de regroupement produit au moins un Cluster contenant les séquences ambigu¨es de brouhaha, d’échanges très rapides et de double parole. De plus, certaines personnes présentant une variabilité importante de la voix selon l’expressivité (voix � normale �et voix � énervée �ou sur bruit de fond important) peuvent donner lieu à deux Clusters différents. En particulier, la voix du présentateur Laurent Ruquier qui parle sur les rires ou les applaudissements, pour reprendre le fil de l’épisode, présente une voix assez différente de sa voix normale. Dans ce cas, le système a créé 2 groupes de la mˆeme personne. Le tableau 4.1 présente le nombre de personnes audio détectées automatiquement par le système basé sur le critère BIC ainsi que le nombre de personnes annotées dans la référence.
Système basé sur l’information visuelle
Dans cette section, de la mˆeme fa¸con que pour le locuteur, l’objectif est de construire automatiquement un index de personnes dans un contenu de télévision basé uniquement sur l’apparence, sans aucune liste prédéfinie des identités des participants. Dans ce contexte, en raison de la forte variabilité de l’apparence du visage d’une mˆeme personne, il est très difficile de détecter et d’identifier les visages avec une grande fiabilité. En effet, mˆeme s’il existe des méthodes de détection de visages avec différentes poses, la reconnaissance du visage reste très difficile dans le cas de visage non frontal, expressif ou avec des occultations. Le costume des personnes étant sujets à moins de variations que le visage (voir le chapitre 1), nous avons choisi de détecter et regrouper les plans dans lesquels apparait chaque personne en utilisant la signature des couleurs de leurs costumes.
Détection des costumes
Afin de détecter les costumes à partir d’une image, nous nous sommes inspirés de la méthode présentée dans [Jaffre and Joly, 2004]. Cette méthode est basée sur la recherche d’un rectangle sous le visage détecté automatiquement. D’abord, le visage est détecté en utilisant l’implémentation OpenCV de l’algorithme Viola&Jones [Viola and Jones, 2001]. Ensuite, un rectangle de la région du costume est déterminé sous le visage. Ce rectangle est proportionnel à la taille du visage détecté : ×3.6 la largeur du visage pour la largeur du costume et ×1.5 la hauteur du visage. La figure 4.1 présente la détection des costumes sur une image extraite de la base de données TSDB. La zone du costume est restreinte à une petite zone afin d’éviter de prendre des pixels de l’arrière plan