Descripteurs retenus pour l’orchestration
Nous introduisons ici les descripteurs utilisés par notre système. Compte tenu des hypo-thèses formulées en infra, les aspects temporels et spectro-temporels du timbre ne sont pas pris en compte. Le signal sera donc toujours un segment de son correspondant à une partie statique du timbre ; l’attaque, en particulier, n’y figurera jamais.
Nos descripteurs se divisent en deux catégories : harmoniques, multidimensionnels (princi-paux partiels résolus) et spectraux, scalaires (centroïde spectral et étendue spectrale). Nous ne donnerons pas ici de détails techniques quant au calcul et à la manipulation de ces descripeurs. Le lecteur désireux d’approfondir ces notions est invité à consulter l’annexe A.
Principaux partiels résolus (MRP)
Rappelons que l’espace de timbres de McAdams et al. [MWD+95] ne concerne que des sons de même hauteur et de même intensité perceptive. Une description harmonique de la cible nous a donc paru nécessaire. Elle consiste en un ensemble des principaux partiels « résolus » par le système auditif. On sait en effet que la membrane basilaire de l’oreille interne se comporte comme un ensemble de filtres passe-bande [Zwi61]. Un partiel est « résolu » lorsqu’il est seul l’intérieur d’une bande critique. Si une même bande contient plusieurs partiels, seul le plus élevé en amplitude est considéré comme résolu.
Nous désignerons désormais par MRP (Main Resolved Partials) les principaux partiels résolus. Dans le cas d’un son monophonique (de hauteur unique) ou polyphonique (perçu comme un accord), les MRP jouent un rôle déterminant dans la perception de la (des) hau-teur(s). Dans le cas d’un son complexe (une cloche par exemple), ils déterminent la « couleur harmonique » du son.
Centroïde spectral
Le centroïde spectral est souvent défini comme le centre de gravité spectral du son. Les psychoacousticiens le relient à la brillance : les sons brillants ont un centroïde élevé, les sons sourds un centroïde bas. Son rôle dans la perception et les jugements de similarité de timbre n’a plus à être démontré : le centroïde spectral figure toujours parmi les dimensions principales des espaces de timbres (voir section 2.5).
Le centroïde peut être calculé en considérant le spectre comme la densité d’une variable aléatoire dont les valeurs sont les fréquences du spectre et les probabilités d’observation sont les amplitudes normalisées [Pee04] : sc = f a(f ) df (8.1)
Etant donné que les fréquences peuvent être exprimées sur une échelle linéaire ou logarith-mique, et que le spectre peut être calculé en amplitude, en energie ou en décibels, il y a en tout six façons de calculer le centroïde spectral. Pour des raisons d’additivité des descripteurs, nous préférons le centroïde linéaire, calculé avec des fréquences linéaires et un spectre d’amplitude.
La formule 8.1 permet de calculer le centroïde instantané, associé à une fenêtre tempo-relle unique. Le centroïde global (caractérisant la brillance générale du son) est obtenu par une moyenne du centroïde instantané, pondérée par l’intensité perceptive sur chaque fenêtre temporelle (voir A).
Etendue spectrale (spread )
De même que le centroïde est la moyenne du spectre (ou premier moment spectral), l’éten-due spectrale correspond à l’écart-type (second moment spectral), appelé couramment spread. D’un point de vue perceptif, il est relié à l’épaisseur spectrale du son (à ne pas confondre avec l’épaisseur spatiale de Koechlin [Koe43]). L’épaisseur spectrale est en quelque sorte la bande passante ; une voix humaine sera plus épaisse en conditions naturelles d’émission que sortant d’un vieil appareil de radio. Pour donner un exemple musical, à hauteur et centroïde équivalents, une trompette a un son très épais avec une sourdine Harmon et très étroit avec une sourdine Cup. En termes probabilistes, l’étendue spectrale s’écrit [Pee04] : où sc est le centroïde spectral du son. De même que le centroïde, il y a six calculs possibles pour l’étendue. Toujours pour des raisons d’additivité des descripteurs, nous travaillerons avec un spread linéaire, calculé avec des fréquences linéaires et un spectre d’amplitude. La formule 8.2 renvoie également une valeur instantanée. Le calcul de l’étendue globale fait intervenir l’in-tensité perceptive instantannée (voir A).
Extensibilité de la description
Nous nous limitons donc a une vision spectrale, ou spectro-harmonique, du timbre, et sommes conscients que cette simplification néglige de nombreux aspects du son. Helmoltz déjà, pour qui les différences de perception sonore n’ont longtemps tenu qu’à la fréquence et à l’amplitude des partiels, s’était rendu compte de l’importance des facteurs temporels et des parties transitoires. « La caractéristique des sons la plus significative d’un point de vue musical n’est pas qu’ils soient identifiables en tant qu’entités multidimensionnelles cohérentes, mais qu’ils présentent des variations temporelles significatives, et conservent toutefois leur identité. » (Erickson, Sound Structure in Music [Eri75]).
On sait aujourd’hui que ces variations temporelles jouent un rôle majeur dans notre percep-tion du timbre. Schouten [Sch68] a proposé un ensemble de dimensions pour la caractérisation du timbre, adaptées aux préoccupations contemporaines : rapport entre composantes tonales et bruitées, enveloppe spectrale, enveloppe temporelle, glissement de formants, variation de fréquence fondamentale, forme de l’attaque. Tous ces aspects sont désormais accessibles à la description des sons [PMH00] [Pee04] et peuvent être extraits directement du signal audio l’aide du programme ircamdescriptor de Geoffroy Peeters. Or, nous avons vu en 7.2.2 que disposer d’un modèle descriptif n’est pas suffisant pour le problème de l’orchestration ; la dif-ficulté principale réside dans la prédiction des descripteurs d’un mélange de sons. Il serait en effet impensable — en termes de temps de calcul — d’évaluer la qualité des propositions d’orchestration en générant un « mixage » des composantes, puis en extrayant les descripteurs de la mixture (voir section 7.2.2). Nous avons donc besoin pour chaque descripteur utilisé, non seulement d’une méthode d’ex-traction, mais aussi d’une méthode d’addition (cf. 7.3). Les descripteurs introduits en 8.1.2 satisfont cette exigence sans toutefois nécessiter une expertise approfondie du domaine. En outre, cette caractérisation réduite du timbre nous a déjà permis d’obtenir des résultats signi-ficatifs auprès des compositeurs. Après tout, notre description recouvre une bonne partie de l’espace de timbres de McAdams et al. [MWD+95]1. . .
Rappelons également que la conception et la manipulation des descripteurs du timbre ne constituent pas le cœur de nos travaux. En attendant de disposer d’un ensemble de descripteurs « additifs » du timbre, nous avons avancé dans nos recherches avec une description simple mais facilement manipulable.
Création d’une base de test
Le problème d’une évalutation quantitative de nos approches ou de nos méthodes s’est présenté à plusieurs reprises au cours de nos travaux : mesures de la précision des fonctions d’agrégation (section 8.3), pertinence de la description et de l’approche multicritère (sec-tion 8.4 et 8.5), performances de l’algorithme de réparation des configurations inconsistantes (chapitre 10), évaluation de l’algorithme d’orchestration (chapitre 11). Pour l’ensemble de ces évaluations, une base commune d’instances de test a été générée. Chaque cas de test est un son résultant d’un mélange d’échantillons de la connaissance instrumentale, qui peut servir de cible pour un problème d’orchestration. Nous détaillons dans cette section le processus de création de cette base.
Génération de mixtures
La connaissance instrumentale de notre outil d’orchestration provient de la base Studio Online (SOL) [BBHL99], enregistrée à l’IRCAM (voir section 7.1.2). Seuls sont utilisés par notre système les échantillons de sons harmoniques, entretenus et sans variations temporelles, au sens large — les échantillons présentant des modulations d’amplitude (trémolos) et de fréquences (vibratos) sont exclus. Les raisons de ces restrictions ont été exposées en 8.1.1. Notre base de données compte ainsi 4763 échantillons, soit environ un tiers de SOL, et regroupe les instruments suivants : flûte, hautbois, clarinette en Si bémol, basson, trompette en Do, trombone ténor, cor, violon, alto, violoncelle et contrebasse.
Enregistrés en solo, en dehors de tout contexte musical, les échantillons de SOL sont la plupart du temps très légèrement faux. Lorsqu’on les mélange pour générer des mixtures de test ou pour simuler des orchestrations, de pénibles phénomènes de dissonance et de modulation d’amplitudes apparaissent. Nous avons donc « repitché » automatiquement les échantillons de notre propre base à l’aide une analyse en fréquence fondamentale et d’un algorithme de « stretch » dans SuperVP [DP91].
A partir de ces sons individuels, nous avons dans un second temps généré des mixtures instrumentales de deux types. Les premières, que nous qualifions de « monophoniques », n’in-cluent que des sons de même hauteur, et leur cardinalité varie entre 1 et 4 sons. Les secondes, polyphoniques », sont formées à partir de 2, 3 ou 4 sons de la base, de hauteurs toutes différentes. Pour ces dernières, l’ambitus de l’accord (c’est-à-dire l’écart entre la note la plus haute et la plus basse) n’excède jamais deux octaves, afin de favoriser la fusion des timbres on sait en effet que deux sons harmoniques de hauteurs trop éloignées sont perçus comme appartenant à deux « plan sonores » distincts. Dans tous les cas, les mixtures ne peuvent impliquer deux fois le même instrument, et leur tessiture est limitée à Do2 2 dans le grave et Ré5 dans l’aigu.
La méthode d’addition utilisée est une simple somme de signaux, chaque signal étant préalablement convolué avec la réponse impulsionnelle d’une petite salle, différente à chaque fois et puisée aléatoirement parmi un ensemble de réponses générées numériquement avec le programme de spatialisation Spat [Jot97]. Cette opération permet de simuler un effet de salle en créant une réverbération artificielle. Son but est d’une part d’éviter d’invraisemblables effets de phase et de modulation d’amplitude, fréquents lors de l’addition de signaux harmoniques de même hauteur. D’autre part, elle vise à s’abstraire de la spécificité de l’échantillon liée à l’instrumentiste et aux conditions d’enregistrement (voir section 7.1.2).
Construction de cibles : description et contraintes
Les descripteurs audio introduits au paragraphe 8.1.2 ont été extraits de chacune des mixtures selon le processus exposé en annexe A. Cet ensemble de descripteurs va servir dans un premier temps à l’évaluation des fonctions d’agrégation (voir paragraphe 8.3). Ensuite, chaque jeu de descripteurs sera considéré comme la cible d’un problème d’orchestration imitative dont le but sera de retrouver la mixture originale.
Chaque cible est en outre complétée par trois contraintes permettant de réduire la taille de l’espace de recherche (rappelons que ce dernier ne comporte que des configurations consis-tantes) :
• Contraintes de hauteur : L’espace de recherche est limité aux configurations compre-nant toutes les hauteurs de la mixture cible, et uniquement ces hauteurs-là. Pour les mixtures monophoniques, l’espace est donc restreint à des combinaisons de sons de hau-teurs identiques ; pour les cibles polyphoniques, le nombre de hauteurs différentes dans une configuration est égal au degré de polyphonie de la mixture.
• Contraintes d’effectif : L’espace de recherche est limité aux configurations n’utilisant qu’une seule fois le même instrument.
• Contraintes de cardinalité : L’espace de recherche est limité aux configurations impli-quant le même nombre d’instruments que la mixture cible. Pour les mixtures à trois sons, on ne cherchera donc que des solutions à trois sons.
Les mixtures cibles vérifient systématiquement les trois contraintes de hauteur, effectif et cardinalité. Elle font donc à chaque fois partie de l’espace de recherche. L’objet de la section 8.4 sera justement d’y repérer leur position.
Espaces de recherche, fronts de Pareto
Chacune des 3500 mixtures de la base de test a donc été considérée comme la cible d’un problème d’orchestration particulier, assortie de contraintes de hauteur, d’effectif et de car-dinalité. Pour chaque problème, l’intégralité des configurations consistantes a été générée. Le tableau 8.1 donne un aperçu de la cardinalité des espaces de recherche. Pour les mixtures à 4 sons, le temps de calcul est déjà de l’ordre de plusieurs minutes. L’exploration systématique (brute force) des combinaisons possibles dans la résolution de problèmes de grande taille sera donc à proscrire. Nous verrons au chapitre 9 de quelle manière le problème combinatoire peut être traité en un temps raisonnable.
Les espaces de critères sont alors obtenus par applications successives des fonctions d’agré-gation et fonctions de comparaison sur les espaces de décisions. Nous extrayons de chaque espace de critères les fronts de Pareto à l’aide de l’algorithme 1. Afin de prouver la validité de l’approche multicritère et l’absence de redondance dans l’emploi de critères exclusivement spectro-harmoniques, nous considérons pour chaque problème plusieurs combinaisons de cri-tères. De chaque espace de critères nous extrayons donc 7 fronts de Pareto correspondant aux différents jeux de critères du tableau 8.2.
La complexité de l’algorithme 1 est dans le pire des cas en O(n2K), où n est la taille de l’espace de recherche et K le nombre de critères. Afin de traiter les problèmes à 4 sons en un temps raisonnable nous créons une partition de l’espace de recherche en sous-ensembles de l’ordre de 105 configurations, et utilisons l’algorithme 2 de mise à jour du front de Pareto. Sa complexité est dans le pire cas en O(npK), où K est le nombre de critères, p la taille du front courant et n la taille du sous-ensemble de l’espace des critères utilisé pour la mise à jour.
