De l’interopérabilité au web de données

J’ai eu la chance de participer à l’Université d’été de l’édition électronique (Marseille, 7-11 septembre 2009) où j’ai parlé d’interopérabilité et de circulation de l’information scientifique et technique. J’ai axé mon propos sur le fait que l’interopérabilité des données est peut-être la première marche vers la mise en place du web de données. Il est probable que pour faire le web de données il nous faille passer d’abord par un web des données (comptons aussi un peu sur les institutions françaises pour cela) même si l’appropriation et l’utilisation de standards communs est de plus en plus naturel et que l’utilisation du Dublin Core Element Set ne fait plus réellement débat dans la communauté  scientifique. Gautier Poupeau a présenté dans un billet une mise au point entre la notion de web sémantique et celle de web de données qui résume assez bien ma vision des choses sur ce que le web de données pourrait être et pourquoi il est important que les professionnels de l’information scientifique et technique soient dans ce train là.

Le web de données c’est la réalisation d’une base de données mondiale ou les données sont-elles même sur le réseau (et pas juste leurs méta-données). En discutant avec des chercheurs, collectant des données et les stockant sur leurs petits disques dur dans leurs bureaux, j’ai envie de leur dire à la façon de Tim Berners Lee : « libérez vos données ! mettez-les sur le réseau ! vous faites des images ? renseignez bien vos champs de description IPTC-Core et mettez vos images sur le réseau ! ». Bien sur, il y a 1.000.000 de raisons pour qu’ils ne le fasse pas : ils ont une recherche en cours que le voisin veut surement leur voler, ils pensent que seul l’article final leur permettra d’être (re)-connus, et peut-être, ce ne sont pas leurs photos. Les documentalistes, bibliothécaire, archivistes ont un rôle majeur dans la réalisation d’un web qui contiendra des données « brutes » (certains disent primaires, factuelles, de terrains, d’enquêtes, etc.). Je renvois au projet data.gov ou nous imaginons bien le travail d’IST qui peut s’y développer. Construire le web de données nécessite de structurer les données avant qu’elles n’existent parfois. Dans les Sciences humaines et sociales, il faut aider les chercheurs – dont le volet technique, normatif, informatique n’est pas le métier – a le faire. Il faut leur expliquer, ce que j’aurai sans doute pu mieux faire à Marseille, que l’augmentation de la masse des données brutes, maintenant accessible, permet aux chercheurs de travailler sur des corpus plus larges, mieux documentés.

L’interopérabilité des données c’est mettre en œuvre une politique scientifique et technique permettant :

  • de rendre (plus) accessible ces propres données dans un maximum de langages documentaires partagés par le plus grand nombre ;

  • de garantir l’accessibilité de ces données dans temps : ceci pour la citabilité des données dont la privatisation, par le DOI par exemple, pourrait avoir des conséquences dramatiques. Je milite là pour une évolution des identifiants OAI ou autres vers de véritables identifiants pérennes et uniques, garantis par un organisme international type UNESCO ;

  • de faire vivre des données numériques : ajout de classifications, de schémas de description (documentaires dans un premier temps), prise en charge de pérennité des données par le développement de formats pivots pour la préservation ;

Ces trois items sont, pour moi, les trois piliers de l’interopérabilité des données dans une optique future du web de données. Aujourd’hui, il nous est difficile de sortir du carcan de la pensée documentaire comme dirait Got car les méthodes, techniques et outils qui sont enseignés correspondent encore au monde d’avant le web et nous n’avons pas encore d’outils de masse pour le monde d’après le web, mais ils arrivent et il nous faut faire œuvre de pédagogie. En attendant, nous chérissons nos méta-données. Il nous faut nous interroger sur l’encapsulation des méta-données descriptives dans les données (étape n°2 sur le chemin du web de données ?), mais aussi comment signaler à nos machines que la description d’une image est là au milieu des bits de l’image.

L’interopérabilité des données entre machines, via des méta-données, est la première marche, le premier pas vers le web de données. Si plusieurs techniques existent, l’OAI-PMH couplé aux descriptions en Dublin Core, représente le plus souvant le volet technique, informatique de l’interopérabilité des données aux yeux des professionnels de l’IST. La mise à plat des méta-données, dans l’OAI-PMH, a un avantage : il met à plat réellement les méta-données et nous oblige à repenser le rapport entre données, méta-données et le fait que, avec l’OAI-PMH, ce qui en sort, c’est du XML et pas une page web en HTML. On utilise le web pour faire autre chose que du HTML et des « pages » ; tout en se gardant la possibilité d’en faire, le web muterait-il ?. Nous faisons des flux de méta-données dans un langage pour des machines (aujourd’hui c’est du XML, mais demain…) : le web n’est pas que le territoire du HTML, il devient dynamique, il est un flux. Avec l’OAI-PMH, ce qui sort, c’est du flux XML (fluxml, cela fait vieux médicament) et pas une page web, pourtant il y a dedans de l’information mais nous échangeons juste de l’information sur la données, il nous faut aller plus loin. L’interopérabilité des données c’est presque un web des données.

Le mouvement est-il en marche ? Le réseau national des documentalistes du CNRS organise en octobre 2009 trois jours autour de l’OAI-PMH et j’espère son évolution future OAI-ORE. En 2010 aura lieu une seconde école thématique, très pratique, sur les sources numériques et l’interopérabilité des données. Ces sessions de formation continue sont bien évidement le reflet de ce qui se passe dans les IUT et à l’Université. Il me semble que ces éléments en sont des signes favorables.