Le meilleur format de conservation des données numériques, c’est vous.

Got vient de publier un billet très intéressant sur le fait que la notion de format pérenne ne veut rien dire. Je suis entièrement d’accord et nous sommes plusieurs ingénieurs, dans les sciences humaines et sociales numériques, à partager cet avis. L’information, encodée dans un fichier numérique, est dépendante de la structure du format, de ses spécifications, des logiciels capables de lire ce format et d’offrir ainsi « une vue », à un instant T, sur l’information. Faire de l’édition en ligne, diffuser des données, nécessite d’être conscient de fragilité des formats dans le temps. Il est facile de l’être pour qui a déjà perdu des données importantes.
Cela dit, j’irai plus loin que Got.
Dans un cas extrême, un format ouvert, mais mal documenté ou dont la documentation n’a pas été bien maintenue dans le temps, peut être plus complexe à migrer qu’un format propriétaire. Pourtant les formats propriétaires sont liés au cycle de vie de plus en plus court des versions de leurs logiciels « maitres ». S’il est aujourd’hui possible de migrer, sans trop de problème, un fichier propriétaire de la version N à N+1 de son logiciel « maitre », il souvent difficile de faire du N+3 ou 4. Également, certains types de formats sont encore trop propriétaires : c’est le cas des fichiers 3D. Si le VRML, et son « successeur » le X3D sont ouverts et normalisés, ces formats n’occupent pas réellement la place de « format pivots », éligibles à un archivage à long terme de type OAIS : ils sont considérés comme « trop pauvres » par les modeleurs que les format 3D propriétaires de type .max de 3DS max pour cela. Il est d’ailleurs curieux que le VRML et le X3D soient vus comme des formats pivots alors qu’ils n’ont pas été créés pour cela. Souvent, des collègues non spécialistes me dise : « on fera une sortie VRML pour sauvegarde » : sont-ils conscient de l’appauvrissement de l’information entre un fichier max et VRML ? Les travaux du centre de ressources ArchéoVision du CNRS, dirigé par Robert Vergnieux, éclairera ces questions dans les années qui viennent par la création du conservatoire des données 3D du patrimoine.

Formats ouverts, formats propriétaires… maintenir l’accès à l’information est avant tout une histoire de veille technologique humaine et de conseils aux utilisateurs et aux décideurs. Il est aussi important de dire clairement pourquoi un format ouvert peut être, à un moment de son évolution, moins bon pour l’archivage numérique à long terme. Un format bien documenté ne sert a rien si personne n’en suit les évolutions et les usages. Il faut des équipes qui « suivent » les choses dans le temps : l’archivage à long terme des données déposés dans HAL a mobilisé plusieurs équipes formées d’archivistes, d’informaticiens, de chercheurs en amont même !

Ainsi, le meilleur « format » numérique de conservation ne sert-il pas l’humain ?

Stéphane.