Structuration de contenus audio-visuels par personne dans un contexte de télévision

Structuration de contenus audio-visuels par personne dans un contexte de télévision

Principes de structuration

Structurer un document audio-visuel par personnes consiste a détecter et regrouper automatiquement les interventions de chaque personne du document. Dans les méthodes de structuration, on distingue deux étapes : la segmentation et le regroupement.

Etape de segmentation

La segmentation d’un document audio-visuel consiste a détecter automatiquement les personnes intervenant de manière audio et/ou visuelle dans le contenu. L’objectif est de découper le document en segments homogènes contenant chacun une seule personne. En audio, les segments homogènes doivent contenir chacun un seul locuteur. Dans la modalité visuelle, les segments homogènes doivent doivent contenir les plans d’apparence des personnes.

Etape de regroupement

La phase de regroupement (appelée Clustering) consiste a regrouper les segments appartenant `a chaque personne dans un seul Cluster. Les méthodes les plus utilisées sont basées sur l’approche classique de regroupement hiérarchique [Johnson, 1967].Cette approche est basée sur la construction des Clusters de manière itérative. Il existe deux types de regroupement hiérarchique : hiérarchique ascendant et hiérarchique descendant. Regroupement hiérarchique ascendant Le regroupement hiérarchique ascendant est le plus utilisé pour la structuration. Le principe est de regrouper de manière itérative les plus proches segments selon une mesure de similarité. La figure 1.1 montre un exemple de regroupement d’une séquence audio segmentée préalablement en 9 segments contenant un seul locuteur. Il existe plusieurs approches pour mesurer la similarité entre les groupes : – Single linkage Clustering : distance entre la paire d’éléments les plus proches, ou chaque élément appartient a un groupe. – Complete linkage Clustering : distance entre la paire d’éléments les plus éloignés, ou chaque élément appartient a un groupe. – Average linkage Clustering : distance entre l’élément moyen de chaque groupe. – Average group linkage Clustering : moyenne des distances entre chaque paire d’éléments, ou chaque paire est composée de deux éléments appartenant chacun `a un groupe. – Regroupement Ward : minimum de perte d’information [Ward, 1963].

Structuration basée sur l’information audio

L’objectif de la structuration de documents par personne basée sur l’information audio (appelée également indexation en locuteurs) est de détecter les interventions sonores des personnes (tours de parole) et de les regrouper par personne. Souvent, l’indexation en locuteurs prend l’hypothèse que l’on ne possède pas de dictionnaire prédéfinie des locuteurs potentiellement présents dans le document audio. Cette hypothèse permet de traiter des documents contenant des locuteurs recherchés (`a identifier ultérieurement) et inconnus (que l’on ne souhaite pas indexer). L’architecture générale d’un système d’indexation en locuteurs est divisée en 3 étapes distinctes : l’extraction des paramètres, la segmentation et le regroupement (voir figure 1.2).

Extraction des paramètres

La première étape consiste `a extraire des paramètres acoustiques de la bande sonore contenant des interventions de plusieurs locuteurs. Les paramètres fréquemment extraits sont les coefficients MFCC (Mel Frequency Cepstral Coefficients) avec un nombre varié de coefficients et de complémentaires (dérivées premières et secondes).

Segmentation en tours de parole

Après extraction des paramètres acoustiques, l’étape de segmentation consiste `a découper la séquence audio en petits segments homogènes supposés contenir chacun de la parole provenant d’un seul locuteur. Dans la littérature, deux niveaux de segmentations sont utilisés séparément ou de manière combinée..