Représentations redondantes et hiérarchiques pour l’archivage et la compression de scènes sonores

Dans son Quart-livre, paru en 1552, Rabelais fait traverser au géant Pantagruel et ses compagnons d’aventure une vaste étendue appelée mer Glaciale, dans laquelle les sons d’une bataille s’étant déroulée l’hiver précédent se sont retrouvés gelés, emprisonnés par la glace. Au contact du navire, les sons dégèlent et les personnages peuvent alors entendre le fracas des canons et les cris poussés par les soldats plusieurs mois plus tôt. Cette séquence est communément comprise comme une réflexion humaniste sur le langage et le bouleversement du rapport au temps et au savoir qu’autorise l’écriture. Mais au sens premier, Rabelais est le premier à imaginer ce que nous appelons aujourd’hui un enregistrement d’une scène sonore.

Depuis les enregistrements sont devenus une réalité tangible. D’abord sur des cylindres de cire, puis des disques de vinyle, des bandes magnétiques et désormais sur des supports numériques, les paroles et les autres sons peuvent être gelés et dégelés presque à l’infini. La mer glaciale est devenue un océan gigantesque et qui ne cesse de grandir. Avec l’explosion du volume de données audiovisuelles disponibles sont apparus de nouveaux questionnements que Rabelais ne pouvait soupçonner. Comment traiter ces enregistrements, les classer, les stocker, les conserver et les étiqueter de sorte que l’information (les humanistes auraient dit le savoir ) qu’ils contiennent demeure à la fois accessible et préservée ?

Cette question, c’est celle de l’archivage et c’est elle qui est à l’origine de ce travail de thèse. L’archivage est, on va le voir, un problème intéressant car complexe, au sens où on regroupe sous cette dénomination un ensemble de tâches bien distinctes, parfois même concurrentes. En tout état de cause, l’archivage de scènes sonores offre un cadre pratique aux problématiques modernes des Sciences et Technologies de l’Information et de la Communication (STIC), et en particulier à celles du traitement des signaux audio.

L’archivage est un problème communément mal défini. Lorsqu’on parle d’archiver un document électronique, un livre, un objet, on cherche généralement à conserver cet objet dans des conditions garantissant son intégrité et son accès, tout en réduisant l’espace nécessaire à son stockage. C’est une vision pratique de l’archivage comme processus de conservation. Dans cette vision, graver un morceau de musique en format numérique non compressé sur un support amovible, par exemple, est une forme d’archivage. En revanche, réaliser une compression avec pertes de ce même morceau n’entre pas dans le domaine de l’archivage.

Cette vision centrée sur la conservation est complétée par une vision documentaliste: archiver c’est classer, trier, ranger et décrire. Toutes ces tâches impliquent l’existence de méta-données ou encore de descripteurs sur le contenu des archives. Il ne s’agit pas seulement de préserver l’information existante, dans cette vision, l’archivage est un processus créateur d’information. Étiqueter ou classer par nom de l’artiste une collection de morceaux de musique est alors un exemple d’archivage. Plus formellement, l’archivage est constitué de deux disciplines : l’archivistique et la diplomatique. La première s’attache à collecter, analyser, étiqueter et mettre en valeur des archives, tandis que la seconde traite des modes de conservation, de garanties d’intégrité et d’authenticité. Un système complet d’archivage,  nécessite donc de réaliser analyse et compression en parallèle. Une introduction à l’archivage et à ses problématiques se trouve dans le Nouveau glossaire de l’archivage de M.A. Chabin, disponible gratuitement en ligne.

Normes et standards Historiquement, l’archivage est une tâche dévolue aux bibliothécaires et aux moines. Elle consiste à assurer la conservation de textes (éventuellement de leurs copies) et leur indexation en vue d’une consultation future. Au cours des siècles, toutes les grandes civilisations maîtrisant l’écriture ont compris l’importance de la conservation du savoir. La nécessité de mettre en place des systèmes de centralisation des écrits, ne serait-ce que pour des besoins de contrôle et de censure se fait plus évidente avec la banalisation de l’imprimerie en Europe. En France, le principe du dépôt légal de tout ouvrage édité remonte à 1537 et les Archives Nationales conservent les documents administratifs depuis la Révolution de 1789.

La nature des objets archivés évolue au cours du temps. Des manuscrits aux traités, comptesrendus, procès verbaux et autres formulaires administratifs, puis des supports différents (étalons de poids, de mesures, sceaux, etc..), jusqu’aux ouvres d’art, tapisseries, tableaux puis photographies et enfin enregistrements de scènes sonores et visuelles, sur des supports analogiques puis numériques. La dématérialisation a fait apparaître des besoins spécifiques dont une liste exhaustive se trouve dans [CRE06] de même qu’une analyse des enjeux et des contraintes engendrées. Il existe en France depuis 2009 une norme décrivant les Systèmes d’Archivage Électronique (SAE), à savoir la norme AFNOR NF Z 42-013, reprise début janvier 2012 dans la norme ISO 14621. Ces normes préconisent essentiellement la mise en place de deux systèmes concomitants : ( Un système de stockage garantissant l’intégrité des données ( Un système de description du contenu à l’aide de méta-données Plutôt vagues, elles ne font qu’officialiser la dualité inhérente à tout système d’archivage. Les deux facettes – conservation et indexation – sont nécessaires et c’est cette nature double qui rend le problème intéressant.

Archivage de scènes sonores En France, l’Institut National de l’Audiovisuel (INA) est créé en 1975, avec parmi ses missions l’archivage des données audiovisuelles et en particulier les flux télévisuels et radiophoniques (aujourd’hui, l’INA est le dépôt légal d’une vingtaine de stations de radio et 88 chaînes de télévision). De nombreuses autres bases de données audiovisuelles existent également, citons par exemple les archives ethnologiques CORPUS .

Les problématiques rencontrées par ces institutions se rattachent au domaine de la fouille de données (data mining). A ce titre, Youtube®, propriété du moteur de recherche Google® depuis 2006, constitue sans doute la plus grande base de données audiovisuelles mondiale, accessible en ligne (plus de deux milliards de visionnages par jour). Pour autant, l’intégrité des objets – de même que la qualité de l’indexation – est loin d’être garantie (recours à du codage destructif, lacunes dans le contrôle des étiquettes, redondances, etc…). Ce type de plate-forme ne remplit donc pas les critères d’un SAE .

Table des matières

1 Introduction
1.1 Contexte et problématiques de l’Archivage
1.2 Stratégies et Outils
1.3 Contributions
1.4 Plan du manuscrit
I Techniques de Représentations Parcimonieuses
2 Représentations de signaux Audio
2.1 Représentations usuelles de signaux audio
2.2 Représentations Parcimonieuses
2.3 Algorithmes
3 Algorithmes gloutons de décompositions parcimonieuses
3.1 Matching Pursuit
3.2 Variantes sur la mise à jour
3.3 Variantes sur le critère de sélection
3.4 Matching Pursuit Stochastiques
II Poursuites Aléatoires et Dynamiques
4 Matching Pursuit à Séquence de Sous-dictionnaires
4.1 Contexte
4.2 Matching Pursuit à Séquence de Sous-dictionnaires (SSMP)
4.3 SSMP dans des dictionnaires temps-fréquence
4.4 Application à la compression de scènes sonores
5 Matching Pursuit Dynamiques
5.1 Évolution des distributions de projections
5.2 Sous-échantillonnage dynamique
5.3 Sous-échantillonnage des lignes et des colonnes
Conclusion

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *