Algorithmes de post-traitement
Règles heuristiques
On trouve de nombreux exemples dans la littérature de règles heuristiques destinées à corriger la présence d’éventuelles erreurs de classification sur la séquence des classes estimées yˆi ∈ {1, . . . , C} associées à la suite d’exemples xi , où i suit la séquence temporelle des trames. Ces heuristiques ciblent généralement la correction d’erreurs marginales (outliers). On peut définir ces dernières de manière informelle comme la présence accidentelle d’un label A dans une séquence longue de labels B 6= A. La règle la plus simple [121][139] consiste donc à simplement remplacer toutes les occurrences de la séquence ABA par la séquence AAA : • ABA → AAA Certains auteurs [260][261] préfèrent au préalable réunir les trames consécutives de même label en segments homogènes pour prendre en compte la durée de ces segments dans la détection d’erreurs marginales. Néanmoins ce procédé revient de fait à induire des règles heuristiques sur des séquences plus longues afin de prendre en compte un voisinage plus large de labels. Ainsi, dans [52], Chou et Gu définissent un ensemble de règles plus complexes portant sur des séquences de longueurs variables s’échelonnant de 3 à 7 trames, par exemple : • AABAA → AAAAA • AABBAAA → AAAAAAA celles-ci sont complétées par des règles empiriques plus fines guidées par la nature des classes mise en jeu. Dans le cadre d’un problème portant sur les quatre classes de parole, musique, chant et bruit, respectivement représentées par les labels « S », « M », « A » et « N » 1 , les auteurs définissent par exemple certaines règles destinées à corriger les transitions erronées entre le bruit et les classes de parole et de chant (on note [A|B] un label pouvant prendre indifféremment les valeurs A ou B) : 1. N[M|A]SSS → NSSSS 2. SSS[M|A]N → SSSSN 3. N[M|S]AAA → NAAAA 4. AAA[M|S]N → AAAAN 5. NN[M|A][M|A]SSS → NNSSSSS 6. SSS[M|A][M|A]NN → SSSSSNN Les règles 2, 4 et 6 sont les symétriques des règles 1, 3 et 5. On voit que l’auteur choisit ici d’avantager implicitement les classes non bruitées lors de transitions marginales. On peut construire ainsi de nombreuses règles plus complexes encore pour prendre en compte les particularités de chacune des classes par rapport aux autres. Il devient cependant de plus en plus difficile de contrôler l’absence de contradiction entre les règles heuristiques édictées. Il est en outre aisé de construire des séquences indécidables au regard des règles habituelles, en particulier l’alternance entre deux classes, ou certains schémas de transition plus complexes : • AAAABABABABBBB • AAAACBACCCC • AAAABBABBAAAA Zhang et al. [262] contournent ce problème en reclassifiant les trames de transition marginale (qu’ils définissent comme des sous-séquences X1 6= X2 6= . . . 6= Xn dans une séquence AAX1 . . . XnBB), en ajoutant la contrainte d’homogénéité de classe (soit X1 = X2 = . . . = Xn). Toutefois si la reclassification suit le même processus de classification, cette correction n’a pour seul effet que d’élire la classe majoritaire parmi les labels Xi . Or, si l’on considère que les labels sont erronés, le vote majoritaire prend le risque d’étendre l’erreur sur toutes les trames Xi . Les règles heuristiques apparaissent de fait comme un pis aller dans un processus où le choix prématuré des labels entraîne une perte importante d’information pour le post-traitement. La seule information sur les classes non choisies pour une trame donnée provient de l’énumération de labels des trames voisines qui, du fait de la discrétisation des valeurs, se heurte aux limitations classiques du vote majoritaire. L’utilisation des probabilités a posteriori comme base du post-traitement permet ainsi de systématiser la prise de décision, en écartant les cas ambigus, et en prenant en compte la vraisemblance des classes non majoritaires. La figure 8.1 donne une illustration de ce phénomène sur un exemple de transition marginale : tandis que les seuls labels (en haut) ne permettent pas de fixer la frontière entre les classes, l’allure des probabilités a posteriori (en bas) nous montre l’évolution homogène croissante de la classe B, qui croise l’évolution décroissante de la classe A, plus bruitée, en particulier par de claires erreurs d’estimation sur la probabilité de la classe C aux trames 5 et 7.
Filtrages
La méthode de post-traitement la plus simple consiste à lisser les probabilités en appliquant un filtrage moyenneur sur une fenêtre dite glissante couvrant L trames successives. On choisit en général un nombre impair de trames afin de prendre en compte un nombre égal de trames passées et futures. La fenêtre couvre donc les trames d’indice i − L−1 2 à i + L−1 2 . Le choix de la longueur L est bien entendu déterminant et sera mené empiriquement par comparaison des performances sur un ensemble de validation. Les figures 8.2(a) et 8.2(b) comparent l’effet du filtre moyen sur l’exemple précédent pour des longueurs de fenêtre respectives de 3 et 7 trames. P On remarque que les probabilités résultantes ne respectent pas la contrainte stochastique c p˜c(i) = 1, mais ce constat est de portée mineure puisqu’une normalisation éventuelle des probabilités n’a aucune influence sur la classe de probabilité maximale. Cependant, le filtre moyenneur, bien qu’ayant l’avantage d’être linéaire et donc propice à une implémentation efficace, garde le défaut d’être relativement sensible aux brusques variations accidentelles. Ainsi on peut observer sur la figure 8.2(a) (concernant un filtre sur 3 trames) que les pics accidentels de la classe C sont amoindris mais restent visibles, bien que n’ayant aucun effet sur la décision finale ; en revanche, on voit que les variations accidentelles de la classe A restent suffisamment présentes pour maintenir une transition marginale. Le filtrage médian, généralement attribué à Gustav Fechner [122], est une alternative courante 2 pour corriger les défauts du filtre moyenneur. La médiane d’une distribution de probabilité est définie comme la valeur pour laquelle la fonction de densité de probabilité est égale à 1 2 . Sur un nombre impair d’exemples, on définit la valeur médiane comme l’exemple parmi ceux-ci qui sépare les autres en nombres égaux d’exemples inférieurs et supérieurs à ce dernier. Dans le cas d’un nombre pair d’exemples, on utilise généralement la valeur moyenne des deux exemples séparant les autres. Il résulte que le résultat du filtrage médian n’est pas influencé par les valeurs aberrantes, si celles-ci sont suffisamment minoritaires. On peut d’ailleurs montrer que la valeur médiane est le point minimisant les déviations absolues des exemples. Les figures 8.3(a) et 8.3(b), illustrant l’effet du filtrage médian pour des fenêtres de 3 et 7 trames, montrent que ce dernier estime l’allure non bruitée des courbes de manière plus lisse et pour des fenêtres de taille moindre. On observe par exemple que le pic accidentel en trame 5 sur la classe A, que l’on retrouve après filtrage moyen sur 7 trames et qui implique ainsi une trame d’avance sur l’estimation de la transition, n’a pas cet effet après filtrage médian. En pratique on exploitera un filtre médian sur 9 trames longues (soit une fenêtre d’environ 5 secondes) ; cette envergure a été déterminée empiriquement.
Modèles de Markov Cachés (HMM)
Le lissage des probabilités par filtrage médian conduit généralement à une amélioration notable des performances. Néanmoins celui-ci est totalement aveugle au regard des classes considérées et ne peut donc prendre en considération la nature de classes impliquées dans une transition donnée. Pourtant, par exemple dans le contexte d’une émission de radio, la transition passagère de la musique pure vers la voix chantée sur fond musical est beaucoup plus vraisemblable que vers un segment de parole pure. Les Modèles de Markov formalisent la modélisation des transitions entre un ensemble fini d’états. Nous proposons ici, après une brève description théorique de ce modèle stochastique et de ses applications courantes, des solutions de post-traitement des probabilités reposant sur ce dernier. 8.3.1 Description théorique On modélise un processus par une suite d’états yi évoluant dans un ensemble fini S1, . . . , SC (dans notre cas, l’état yi représente la classe acoustique associée à la trame i, on parlera par la suite de nombre d’instants j − i pour quantifier la durée qui sépare les états des trames i et j). Un processus Markovien consiste en une modélisation stochastique de la séquence d’états telle que la probabilité d’être à un état Sc à l’instant i (soit yi = Sc) ne dépend que de l’état occupé à l’instant précédant (yi−1 = Sd). De plus cette probabilité est indépendante de l’instant i.
Hidden Semi-Markov Models
Les HMM ont montré leur efficacité pour de nombreuses applications. Néanmoins le modèle implique que la probabilité de rester sur un état c durant d instants successifs, suit une distribution géométrique : p(d) = a d−1 cc (1−acc). Cette contrainte ne traduit pas nécessairement le modèle d’une application donnée. Dans notre cas, par exemple, sur des archives radiophoniques, les segments de parole ne suivent en aucun cas une loi géométrique et peuvent d’ailleurs atteindre des longueurs très conséquentes. La figure 8.4 illustre ce constat en représentant la distribution des nombres de trames consécutives pour les classes de musique (à gauche) et de parole (à droite) sur le corpus ESTER (que nous présenterons dans la section 10.1.1). On constate que si les durées des segments de musique suivent approximativement une distribution géométrique, on trouve au contraire de nombreux segments longs de parole, qui rendent la modélisation géométrique inadéquate. Les modèles semi-markoviens cachés [165] (HSMM, Hidden Semi-Markov Model), également appelés modèles de segments [174], sont généralement attribués à Ferguson qui introduit dès 81 la modélisation des durées d’états [75]. Ils étendent le modèle HMM pour relâcher la contrainte précédente, en associant à chaque état yi , non plus une observation mais une séquence d’observations. Ainsi on ajoute au système une variable d’état supplémentaire `i associant à chaque état yi le nombre d’observations Oi,1, . . . , Oi,`i générées par le système à cet état ; on parle ainsi de segments homogènes modélisés par la séquence des états. De plus, le système est caractérisé par deux nouvelles probabilités : p(` = L| y = Sc) et p(O1, . . . , O` | y = Sc, ` = L) gouvernant respectivement la distribution des longueurs de segments pour un état donné Sc et la probabilité d’observer la séquence d’observations O1, . . . , OL à l’état Sc si celle-ci est de longueur ` = L. L’ajout du paramètre de durée des segments complexifie considérablement le modèle, en premier lieu parce que la variabilité de la longueur des segments introduit un nouveau paramètre dans l’espace de recherche, qui implique un facteur multiplicatif D sur la complexité [254][256] (où D est la longueur maximale d’un segment) pour l’algorithme Forward-Backward 4 , lequel n’est pas présenté ici mais apporte une réponse aux deux autres questions de la section 8.3.2. De plus le champ des probabilités d’observation se trouve largement élargi puisqu’il couvre la modélisation de séquences d’observations de longueurs variables. Ostendorf et al. [174] proposent un large panorama de modèles dynamiques possibles traduisant les caractéristique