Critères de pérennité pour le choix d’un format de données
La capacité des institutions de conservation à restituer fidèlement le patrimoine numérique et à en conserver l’utilisabilité repose sur un certain nombre de facteurs dépendants du format d’encodage dans lequel les données sont enregistrées. Dans le but d’évaluer les formats les mieux adaptés à la conservation à long terme, la BnF a élaboré la liste de critères suivante, à la suite d’autres institutions de conservation à travers le monde4. Cette liste n’est pas classée par ordre d’importance. On distinguera douze critères objectifs et deux critères subjectifs.
Ces deux derniers critères sont fondamentaux dans l’évaluation de la capacité de l’organisation à conserver ses données numériques et rappellent que la pérennité n’est pas une caractéristique intrinsèque d’un format mais découle de l’engagement de l’institution qui les utilise à disposer d’outils de lecture, d’analyse, de traitement, et de migration, ainsi que des compétences nécessaires à leur utilisation. Afin d’élaborer sa propre politique sur les formats pour la préservation numérique, chaque organisation est invitée à pondérer l’évaluation des critères objectifs à l’aune de ses priorités.
Développer une politique sur les formats consiste à expliciter et justifier le compromis entre les objectifs définis par les critères mentionnés ci-dessous. Ainsi, si une organisation dispose déjà d’une forte compétence en interne et d’un outillage adéquat, mais que son budget destiné à l’augmentation de ses capacités de stockage est limité, elle valorisera sans doute la compacité (CPO COM) du format et réduira l’importance de la complexité (CPO-SIM).
Le présent document résulte donc de la démarche spécifique de la BnF, incluant l’évaluation pondérée des formats selon les deux critères subjectifs. Il présente les formats qui demandent un investissement raisonnable dans une optique de préservation à long terme, et reflète l’état actuel des connaissances, des politiques, des pratiques et des capacités de la BnF. Il ne prétend donc ni à l’exhaustivité ni à l’universalité.
Critères objectifs
Afin d’y faire référence plus aisément, ces critères sont identifiés par une série de lettres : « CPO » (pour « Critère de pérennité objectif ») et les trois premières lettres du terme le plus significatif. Identifiant et intitulé(s) Définition Justification CPO-SOC. Communauté d’utilisateurs / Sociabilité Le format est-il largement utilisé dans sa communauté cible ? Par le grand public ? Par les institutions de conservation ? L’utilisation d’un format au sein de sa communauté est un indice de son adaptation aux besoins spécifiques de cette communauté.
Un format également utilisé au-delà des institutions de conservation fournit des garanties supplémentaires, car les moyens de telles institutions pour maintenir un format sont limités comparés à ceux des industries culturelles. Ce critère est lié à celui des outils disponibles : plus la communauté d’utilisateurs est conséquente, plus elle est susceptible d’avoir développé ou fait développer des outils adaptés.
Ces données sont nommées « Objets-données de contenu » par l’OAIS. 4On en trouvera des exemples en section 5.2 du présent document. Réf BnF-ADM-2018-021638-03 Formats de données pour la préservation à long terme : la politique de la BnF page 12/81 CPO-DOC. Documentation Les spécifications du format sont elles publiées ? Si oui, sont-elles maintenues par un organisme de normalisation reconnu ? Quel est leur coût ? Si les spécifications du format sont librement accessibles, il est possible à tout un chacun d’en comprendre la structure et, si le format est également libre, de développer des outils qui le prennent en charge.
La documentation peut être partielle : ainsi certains industriels publient-ils des documents décrivant seulement la structure générale de leur format. Un processus de normalisation garantit que l’on dispose de spécifications décrivant l’intégralité des caractéristiques significatives d’un format. Les formats maintenus par des organismes de normalisation nationaux (AFNOR) ou internationaux (ISO, W3C, IETF, etc.) offrent de meilleures garanties de maintenance et de disponibilité des spécifications, mais peuvent se révéler payants.
On parle de standards de facto lorsqu’une spécification produite par une organisation est majoritairement adoptée dans une communauté bien qu’elle n’ait pas fait l’objet d’un processus de normalisation officiel. CPO-LIB. Liberté d’utilisation Existe-t-il des obstacles juridiques à l’utilisation du format ? Si un format peut être totalement ouvert (documenté et utilisable par quiconque), il arrive également que des limitations d’usage pèsent sur des formats documentés, notamment en raison de brevets accordant des droits de propriété industrielle déposés au profit d’une organisation donnée.
Ces brevets peuvent limiter ou interdire le développement d’outils prenant en charge le format. CPO-AUT. Indépendance / autonomie L’utilisation du format requiert-elle d’autres formats, encodages, environnements logiciels ou matériels ? La consultation et l’utilisation d’un fichier numérique sont systématiquement dépendantes d’un environnement technique. Outre la dépendance à un environnement logiciel qui peut être propriétaire, abordée dans le critère « Liberté d’utilisation », l’utilisation de certains formats est tributaire d’environnements matériels, de bibliothèques logicielles, ou d’éléments habituellement non embarqués dans le fichier (par exemple, la dépendance de la plupart des PDF aux polices installées sur le poste de l’utilisateur).