L’analyse probabiliste en composantes latentes et ses adaptations aux signaux musicaux

« Aujourd’hui on peut faire de la musique avec des ordinateurs, mais l’ordinateur a toujours existé dans la tête des compositeurs. » En affirmant cela dans L’Art du Roman, Milan Kundera pense à Bach, Mozart, Schubert, Stravinsky, Debussy, Schoenberg, ou tout autre compositeur occidental de musique dite savante. Il pense à leur incroyable capacité technique à traiter, ordonner, structurer, combiner, harmoniser toutes sortes de symboles, notes, accords, armures, rythmes, signatures, tout en respectant les règles de composition que leur époque impose, ou qu’ils se sont imposées, afin de traduire une idée et de composer une partition, une œuvre. Il se place en somme dans un paradigme où la composition musicale est purement symbolique, elle est agencement de notes, elle est abstraite. Si cela n’a pas été toujours le cas, c’est la norme du monde occidental du XVIIème au XXème siècle .

Évidemment, la musique trouve son origine dans le monde et les objets qui nous entourent. Considérons par exemple les instruments de musique les plus anciens : du son que fait la corde de l’arc quand une flèche est tirée nait la harpe, du vent qui résonne dans les bambous nait la flute, du bruit de l’arbre qui craque naissent les instruments à percussions. De notre gorge sort notre voix. Et voilà que l’homme s’amuse à arranger et ordonner les sons provenant de ces instruments, à y incorporer des silences, à inventer la musique. Par nature, elle est évanescente et n’existe qu’à l’instant où on l’entend. Mais elle est aussi reproductible : il suffit de restituer les mêmes gestes dans le même ordre, avec le même rythme et sur les mêmes instruments. Seulement, la mémoire humaine n’est pas infaillible, et l’on s’est rapidement mis à inventer quelque moyen de notation pour éviter d’oublier. La transcription d’une œuvre musicale est née. Un système de transcription peut aussi bien être constitué de symboles décrivant des gestes musicaux (taper sur une cymbale, placer un doigt de sa main gauche entre deux frettes d’une guitare) que de symboles représentant des caractéristiques acoustiques d’un son musical, considérées comme porteuses d’information (hauteur perçue, durée, intensité, timbre, etc.). Quel que soit le cas, il inclut également des signes décrivant la manière dont ces sons ou gestes sont agencés dans le temps.

Si l’on ne sait pas dater précisément l’apparition des premières écritures musicales, il est facile de constater que le besoin de représenter la musique de manière symbolique s’est manifesté dans la plupart des civilisations : en Chine par exemple, à environ dix mille ans avant notre ère ou encore en Grèce au VIèmesiècle av. J.-C. Dans l’histoire de la musique occidentale, c’est bien plus tard, au Moyen Âge avec le chant grégorien, que l’on commence véritablement à transcrire la musique grâce à un système de notation qui deviendra plus tard la partition de musique. Si au départ la partition ne sert qu’à décrire certaines caractéristiques sonores d’une œuvre musicale, elle prend une place de plus en plus prépondérante au fil du temps. À la Renaissance, on commence à composer essentiellement de la musique susceptible d’être annotée dans le système de l’époque. Petit à petit, les symboles acquièrent une existence propre et l’on invente des théories musicales qui régissent leur agencement. Là où l’on inventait des notations pour décrire une caractéristique physique du son, c’est le son que l’on adapte désormais pour qu’il concorde à la théorie musicale : la gamme tempérée, pour laquelle l’octave est divisée en douze intervalles égaux appelés demi-tons (cf. annexe A page 163), est progressivement adoptée en Occident à partir du XVIIème siècle pour l’accord de nombreux instruments (claviers, instruments à frettes), de la volonté de pouvoir, sur le papier comme pour l’oreille, moduler librement dans toutes les tonalités. En fin de compte, la partition n’est plus juste transcription : elle devient l’œuvre, la composition. Aussi, il est possible de composer tout en étant sourd, puisque les symboles à eux seuls incarnent la création musicale. Cette primauté du symbolique dans la musique occidentale durera de Bach jusqu’au milieu du XXèmesiècle et finira avec Pierre Schaeffer (et sa musique concrète) et un peu plus tard les Beatles : désormais, le compositeur (ou le groupe) travaille directement le son lui-même et l’inscrit sur un support mécanique (bande magnétique, disque vinyle, CD, etc.) pour réaliser son œuvre. Alors, si l’on souhaite transcrire ces musiques de manière symbolique, il faut réinventer de nouveaux systèmes de notation ou tenter d’utiliser ceux dont on dispose.

Que ce soit pour transcrire une pièce de musique (enregistrée, jouée en concert ou diffusée en direct par exemple), ou pour retrouver la partition à l’origine d’une exécution musicale, la tâche de transcription était, jusqu’à récemment, bien entendu réservée aux acteurs humains. Depuis peu, l’essor de l’informatique ouvre un domaine de recherche vaste et passionnant pour l’automatisation de ce processus à partir d’un enregistrement. Le sujet est en soi un défi majeur pour la recherche scientifique de par sa grande difficulté : les capacités du cerveau humain sont toujours nettement supérieures à ce que l’on sait faire en informatique. Mais il est aussi porteur de nombreuses applications, qu’elles soient pédagogiques, commerciales, artistiques… En voici quelques exemples concrets :
➤ un logiciel de transcription automatique permettant de mettre sur partition l’improvisation d’un pianiste de jazz : bien utile à celui qui étudie et apprend cette discipline ;
➤ une application permettant de retrouver automatiquement, dans une grande base de données, le titre de la chanson fredonnée par un utilisateur ;
➤ un logiciel d’aide à l’apprentissage d’un instrument, qui détecterait et analyserait les erreurs d’un élève ;
➤ un système interactif pour une œuvre de musique contemporaine.

Maintenant que nous avons introduit la transcription de la musique ainsi que les enjeux de l’automatisation de cette tâche, nous allons désormais véritablement présenter le cahier des charges de ce que nous appelons, dans ce mémoire, transcription automatique .

Vouloir transcrire toute la musique du monde avec un unique système de notation est tout simplement impossible. Elle est trop vaste, et l’information importante peut se cacher derrière différentes caractéristiques acoustiques suivant le genre musical traité. Comme le temps où l’on automatisera le choix adéquat d’un système de transcription en fonction d’un enregistrement de musique est encore loin, nous concentrons nos efforts sur un seul système symbolique, pouvant décrire un ensemble restreint de genres musicaux. Commençons par ces derniers. Sans grande originalité, nous nous restreignons à la musique occidentale, tonale ou non, faisant uniquement l’utilisation de la gamme tempérée. Nous pensons bien évidemment à la musique classique tonale, la musique sérielle ou autre musique savante du XXèmesiècle, au jazz, ou encore à toutes sortes de musiques actuelles : rock, pop, reggae… Si pour ces genres, les systèmes de notation les plus adéquats peuvent être de natures différentes (grille d’accords et thème mélodique pour le jazz, partition de chaque instrument pour la musique classique par exemple), une grande partie de l’information symbolique dans un enregistrement est portée par l’ensemble des notes jouées. Afin de rester le plus général possible, nous définissons une note comme un son musical dont on peut percevoir une hauteur tonale  . Alors, une note peut être décrite par un certain nombre d’attributs : temps d’attaque (onset en anglais), temps de fin (offset en anglais), hauteur, intensité, timbre, instrument l’ayant produite… Comme une définition exacte de ces attributs – qui serait incontestable – n’existe pas, nous les définissons à la lumière de la perception humaine : onset et offset perçus, hauteur perçue, etc. La perception étant subjective, cela pourra poser certains problèmes dont nous parlerons dans la section suivante. Heureusement, dans de nombreux cas, il est possible d’associer la perception d’un attribut à des caractéristiques physiques du son.

La transcription automatique telle que nous l’entendons dans ce mémoire consiste, à partir d’un signal audio (enregistrement numérique monophonique), à estimer automatiquement ces notes via trois des attributs sus-nommés : onsets, offsets et hauteurs. Si nous écartons les autres attributs, ce n’est pas qu’ils soient inintéressants, c’est que le problème que nous venons de définir est déjà, comme nous le verrons, d’une immense difficulté, encore très loin d’être résolu : c’est en soit un défi majeur pour la communauté scientifique. Les sons dont aucune hauteur tonale ne peut être perçue sont également mis de côté. Cela concerne par exemples les sons produits par une batterie, qui sont pourtant porteurs d’informations.

Puisque nous ne considérons que de la musique dont le support des notes est la gamme tempérée, la hauteur est codée par des nombres : nous utilisons l’échelle MIDI (annexe A) qui fait correspondre à chaque touche du piano (chaque note de la gamme) un entier naturel, 69 correspondant au 𝑙𝑎4, c’est-à-dire le 𝑙𝑎 du diapason à 440 Hz. Finalement, nos systèmes de transcription automatique devront prendre en entrée un enregistrement (fichier son au format .wav) et rendre en sortie un fichier texte (format .txt) dans lequel devront être écrits les attributs de l’ensemble des notes. on peut trouver un exemple de fichier texte de sortie, ainsi que d’une représentation graphique quasiment équivalente appelée Pianoroll  en anglais et que nous appellerons activations des notes. Si cette représentation est quasiment et non exactement équivalente, c’est qu’elle ne permet pas de dissocier deux notes (jouées par des instruments différents par exemple) de même hauteur et ayant un support temporel se chevauchant. Malgré ce défaut, nous utiliserons cette représentation graphique pour illustrer dans ce mémoire des transcriptions de morceaux. Dorénavant, le terme transcription fera référence au format de nos fichiers de sorties: trouver chaque note présente dans un signal musical et décrire son temps d’attaque perçu, son temps de fin perçu, et sa hauteur perçue.

Table des matières

Introduction
1 Factorisations de RTF pour la transcription automatique
1.1 Introduction
1.2 Observer des notes de musique
1.3 Modéliser les RTF
1.3.1 Introduction
1.3.2 Les méthodes non-supervisées
1.3.3 Les méthodes supervisées
1.3.4 Les méthodes semi-supervisées
1.3.5 L’ajout de contraintes douces
1.3.6 Modèles avec structures temporelles
1.4 Les outils mathématiques
1.4.1 Cadre déterministe
1.4.2 Cadres probabilistes
2 Outils mathématiques et représentations utilisées
2.1 L’analyse probabiliste en composantes latentes
2.1.1 Le modèle
2.1.2 Estimation des paramètres du modèle
2.2 La PLCA avec invariance par translation
2.3 La transformée à Q constant et ses avantages
3 Ajout d’aprioris
3.1 Introduction
3.2 Aprioris de parcimonie
3.3 Apriori de continuité temporelle
3.4 Apriori de ressemblance
3.5 Apriori de monomodalité
3.6 Conclusion
Conclusion

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *