Interopérabilité : faire des choix

L’inconvénient du Dublin Core simple (DC Elements Set) est qu’il nivelle « vers le bas » la richesse de nos bases de données : tous les professionnels de l’information scientifique le savent. Mais cependant, l’exposition de métadonnées en DC simple permet un exercice très intéressant lorsque l’on construit une base de données que l’on souhaite interopérable (via OAI-PMH principalement) : Qu’est-ce qui est important de diffuser, de mes données, puisque je n’ai que 15 champs pour le faire avec le DC simple ?

Je ne me m’empêcher d’oser faire le parallèle avec une technique utilisée lors que l’on étudie les textes du Moyen-Âge et qui est enseigné à l’Université : L’analyse. Je me souviens de mes TP de 2eme année de DEUG d’histoire du Moyen-Âge à Bordeaux, ou la chargée de cours nous disait : « faites comme si vous alliez perdre le texte et donc rédigez un texte, plus court, plus simple, qui en trace les grandes lignes du contenu ». Donc, je dois projeter de l’information venant d’une base de données vers du DC simple, j’ai toujours l’impression de faire une analyse. Comment donner envie au lecteur de cliquez pour aller voir le texte complet, la collection d’images, etc. ? Dans le monde informatique, ce travail là est souvent nommé « mapping » et l’on entend donc « faire un mapping ». Il s’agit de faire des choix, exemple :

Si dans ma base de données j’ai deux champs pour décrire un auteur – un pour le prénom et un pour le nom – je vais par exemple les regrouper dans un seul champs DC simple (du type dc:creator) sous une forme qui sera un choix, ex. : dc.creator:Pierre MARTIN ou bien, autre choix : dc.creator:MARTIN P. ; dans tous les cas, je fais un choix qu’il faudra que j’assume (ce choix peut être collectif ou s’appuyer sur des règles de présentation normalisées, qui, suivant ma communauté m’y aidera fortement). Mais j’insiste sur ce fait : je fais un choix.

Interopérabilité : échanger (suis-je seul ?)

Souvent, dans les projets de recherche, le temps consacré à la modélisation de la base de données fait la part belle à la structuration riche de l’information à traiter : c’est normal. Mais parfois je pense qu’il est intéressant de travailler aussi et de façon importante, sur un modèle de diffusion et/ou d’interopérabilité utilisant le DC simple. Cela permet de faire des choix différents et surtout cela entraine un temps « de respiration documentaire » dans la conception qui permet de se poser une autre question : suis-je seul à faire ce type de base de données ? J’encourage tous les chercheurs que je croise à prendre le temps pour se poser cette question lors qu’ils sont en phase de démarrage d’un projet (et de trouver surement des collègues qui ont déjà travaillé sur ces questions de modélisation). J’aime bien cette idée car elle donne aussi du sens à l’interopérabilité des métadonnées. J’encourage aussi les chercheurs qui font des bases de données de publier systématiquement les choix qu’ils ont fait en matière d’interopérabilité et de les dater. Cela permet de voir les versions successives du travail. L’interopérabilité sert à cela aussi : à ne pas être seul.

Interopérabilité : le temps

Faire des choix en matière d’édition électronique de bases de données, c’est accepter le principe qu’une base peut être diffusée via plusieurs vecteurs ayant une granularité différente et évolutive dans le temps. Il est possible, après être passé par la case « DC simple », de vouloir d’autres types de structuration des métadonnées, par exemple du MODS, ou du MIX pour les métadonnées techniques d’une images (ou de l’IPTC-Core pour les métadonnées descriptives) ou plus naturellement du DC Terms. DC Terms élargi le DC simple en lui adossant d’autres champs possibles, il est plus riche. Pour faire cela, il faudra faire d’autres mapping, d’autres « analyses » et donc assumer d’autres choix. Cette évolutive possible, dans la façon de diffuser des métadonnées et donc les données numériques qui y sont attachées, donne une nouvelle responsabilité aux producteurs/éditeur de base de donnée qui sont souvent les chercheurs : ces objets ne sont pas figés une fois publiés, il faut les entretenir : refaire des choix, étendre les jeux de structuration, etc. L’interopérabilité c’est aussi la gestion du temps vis à vis de son corpus de donnée.