Classification automatique de flux radiophoniques par Machines à Vecteurs de Support

Vers une radio numérique

Ce document décrit le travail de recherche exécuté durant mon doctorat en convention CIFRE dans l’entreprise RTL, en cotutelle académique avec le département TSI du laboratoire de l’école TELECOM ParisTech. Ce doctorat est né de la nécessité pour RTL de moderniser ses moyens techniques pour demeurer l’un des principaux acteurs du paysage radiophonique français dans le cadre du projet national de numérisation de la radio. Aujourd’hui l’un des derniers médias encore analogiques, la radio prépare actuellement sa transition vers le numérique, dans le sillage de la Télévision Numérique Terrestre. Pourtant le contexte est très différent. De par sa simplicité technologique et parce qu’elle peut être une occupation auxiliaire, la radio est le compagnon de notre quotidien et trouve sa place dans une multiplicité d’endroits tels que la cuisine, la salle de bain, le salon, dans un baladeur, ou surtout dans la voiture. Ainsi le pari de la radio numérique implique le renouvellement de 160 millions de postes de radio en France, et, contrairement à l’image hertzienne, la qualité de son est suffisamment satisfaisante pour que de nombreux utilisateurs demeurent sceptiques quant à l’intérêt de renouveler leurs postes pour une offre dont l’avantage n’est pas évident. C’est ainsi que, sous l’impulsion de plusieurs acteurs, parmi lesquels RTL joue un rôle essentiel, la révolution numérique s’accompagne d’une valeur ajoutée. Le protocole de diffusion T-DMB (Terrestrial Digital Multimedia Broadcasting, soit Diffusion Multimédia Numérique Terrestre) permet d’adjoindre au flux audio un flux de services multimédias accessibles à partir d’un écran interactif. Afin de ne pas se dénaturer, la radio se doit de demeurer un média n’accaparant pas l’attention de son auditeur ; aussi le service ajouté n’est pas un flux vidéo qui viendrait en outre concurrencer les acteurs très compétitifs du paysage audiovisuel, mais une offre d’informations auxiliaires qui viennent agrémenter l’expérience radiophonique sans jamais s’y substituer .

Le projet idéal pour une radio comme RTL consisterait à pouvoir produire ce contenu automatiquement en temps réel ou en ligne , à partir du flux audio, ou au moins à réunir le plus possible d’informations pertinentes pour la personne en charge de ce travail. Pourtant, actuellement, la plupart des grandes radio n’ont pas de contrôle en aval sur ce qu’elles émettent. Les logiciels de diffusion exploités sont des applications propriétaires volumineuses et se contentent de réunir les informations sonores voulues, sans fournir d’informations sur ce qu’elles diffusent, qui soient exploitables par un ordinateur. De plus, dans de nombreux cas, comme par exemple une interview impliquant une personnalité et plusieurs journalistes dans un même studio, l’information qui nous intéresserait, à savoir l’identité des locuteurs et la localisation des tours de parole, est totalement inconnue du système de diffusion.

C’est pourquoi RTL, entamant sa mutation numérique, a choisi de se doter des meilleurs atouts en faisant appel aux technologies d’indexation audio, qui substituent à l’indexation manuelle classique l’extraction automatique d’informations (on parle généralement de méta-données) à partir du signal audio. Celles-ci ouvrent une autre perspective prometteuse dans la mise en place d’un système d’indexation automatique des archives de la station. En effet, la station conserve depuis 1997 la totalité du flux d’antenne, mais l’annotation manuelle d’un tel volume de données dépasse largement les possibilités d’une entreprise dont le cœur de métier reste avant tout la production d’informations et non l’archivage.

Applications de l’indexation audio pour la radio

On peut ainsi lister nombre d’applications qui profiteraient directement à un média radio comme RTL :
1. Reconnaissance des titres musicaux : l’identification des titres musicaux est un atout essentiel pour une radio puisqu’elle permet de maintenir l’auditeur informé de ce qu’il écoute en lui fournissant les informations de titre, artiste et album, en plus de fournir la pige nécessaire pour les organismes de contrôle de droits d’auteur (SACEM …). On fait généralement appel pour cela à des techniques d’identification audio qui se concentrent sur la construction d’une empreinte compacte pour chaque titre musical et sa recherche parmi une très vaste collection d’empreintes indexées.

2. Recherche de la voix chantée dans un titre musical : il n’est pas rare que le présentateur d’une émission musicale ou de variété parle sur le début d’une chanson, grapillant ainsi quelques précieuses secondes de parole sur une introduction trop longue, ou assurant simplement la transition entre deux titres. Les présentateurs s’interrompent par convention lorsque l’artiste commence à chanter. À cette fin, il est actuellement nécessaire d’annoter manuellement les chansons afin de permettre au présentateur de savoir précisemment jusqu’à quand il peut parler ou à partir de quand, sur la fin d’une chanson. La détection automatique de voix chantée dans une chanson permettrait ainsi d’automatiser ce processus.

3. Reconnaissance et suivi de locuteurs : la reconnaissance de locuteurs permet de fournir à l’auditeur des informations (biographie…) sur le journaliste ou la personne interviewée. Le suivi de locuteur permet de plus d’indiquer en temps réel qui a la parole. L’application d’une telle technique sur les archives permettrait en outre une recherche par locuteur, ce qui se révèlerait un outil très utile pour le travail des journalistes ou pour la constitution des meilleurs moments de certaines émissions (par exemple les fameuses « Grosses têtes »).

4. Transcription de la parole : les bulletins d’informations sont généralement fournis aux journalistes à l’antenne sous forme écrite. Le texte est par la suite corrigé manuellement afin de prendre en compte les modifications éventuelles apportées par le présentateur en direct. La transcription automatique permettrait de simplifier ce processus et de le généraliser à l’ensemble des programmes d’antenne. La forme textuelle représente un avantage énorme sur l’archive audio puisqu’elle permet l’application des outils de recherche textuelle beaucoup plus puissants et moins gourmands que l’indexation audio.

5. Détection de rires, d’applaudissements ou de foule : les rires et les applaudissements du public ou des invités peuvent être interprétés comme des indices de moments forts de certaines émissions. De même, lors d’une retransmission sportive, la clameur de la foule est généralement révélatrice d’un événement clé du match. La détection de ce type d’événement peut ainsi aider à la constitution du résumé ou des meilleurs moments d’une émission.

6. Recherche de sons-clés (jingles…) : la recherche de sons-clés caractéristiques et récurrents, comme les jingles, les habillages sonores ou les publicités, permet de structurer les archives et ainsi de faciliter son exploration.

On remarque que les quatre premières applications énumérées se basent sur une hypothèse forte sur le contenu acoustique analysé. Ainsi les deux premières concernent des plages de musique tandis que les deux suivantes ne s’appliquent que sur des extraits de voix parlée. Le premier outil indispensable à RTL pour l’implémentation de ces traitements plus complexes consiste donc en l’annotation automatique des plages de parole et de musique dans un flux audio. De plus, une fois la musique détectée, la détection de voix chantée constitue une application dont le principe est très similaire. En effet, chacune de ces tâches implique la reconnaissance d’une catégorie acoustique identifiable sans ambiguïté par un être humain.

Les tâches de recherche de sons-clés et de reconnaissance de titre se basent par contre sur un formalisme différent et dépassent le cadre de cette thèse. De même la reconnaissance de locuteur et la transcription automatique sont des sujets de recherche à part entière qui impliquent, l’un la connaissance d’une vaste collection de locuteurs dont la multiplicité a un impact radical sur l’approche suivie, l’autre des notions sur le langage et la sémantique qui dépassent largement le cadre purement audio de cette étude.

Table des matières

1 Introduction
1.1 Vers une radio numérique
1.2 Applications de l’indexation audio pour la radio
1.3 « Qu’est-ce que la musique ? »
1.4 Classification par Machines à Vecteurs de Support
1.5 Problématiques
1.6 Résumé des contributions
1.7 Structure du document
2 État de l’art
2.1 Applications de la classification audio
2.2 Taxonomie audio
2.3 Techniques de classification
2.4 Caractérisation audio
I Classification par Machines à Vecteurs de Support
3 Présentation des Machines à Vecteurs de Support
3.1 Classification supervisée
3.2 Prélude
3.3 Machines à Vecteurs de Support linéaires
3.4 Principe de Minimisation du Risque Structurel
3.5 Noyaux
3.6 Machines à Marge souple
3.7 Méthodes à noyaux
3.8 Une méthode universelle d’apprentissage
4 Sélection du noyau
4.1 Illustration sur des données artificielles
4.2 Stratégies d’affinage
4.3 Critères d’évaluation basés sur l’erreur de généralisation
4.4 Critères basés sur la séparation de classes
4.5 Facteur d’erreur C
4.6 Evaluation des critères de sélection de noyau
5 Stratégies multi-classes
5.1 Combinaisons de SVM
5.2 Reformulation des SVM
5.3 Discussion et Conclusion
II Caractérisation audio
6 Application sur un signal audio
6.1 Architecture du système de classification
6.2 Analyse du signal en trames
6.3 Intégration temporelle
6.4 Normalisation des descripteurs
6.5 Liste des descripteurs employés
6.6 Discussion
7 Sélection de descripteurs
7.1 Introduction
7.2 Taxonomie des algorithmes de sélection
7.3 Méthodes filtres classiques
7.4 Méthodes à noyaux
7.5 Propositions d’algorithmes efficaces de sélection
7.6 Synthèse
7.7 Expériences comparatives
7.8 Commentaires
Conclusion