linked data – Archives du blog de Stéphane Pouyllau

ISIDORE : valorisons les données des sciences humaines et sociales

Aujourd’hui, j’ai le plaisir de participer au lancement officiel d’ISIDORE, la plateforme de recherche dans les données numériques de la recherche en sciences humaines et sociales. Réalisée par le très grand équipement Adonis du CNRS, ISIDORE est une production collective qui a associé depuis plus de deux ans des acteurs publics et des acteurs privés au sein d’un marché de réalisation. Public tout d’abord : ISIDORE est un projet qui est la matérialisation concrète du projet fondateur du TGE Adonis : donner accès à de l’information, ouvrir des données, rendre visible la production des chercheurs et les données qu’ils utilisent pour travailler. Au sein du TGE Adonis un grand nombre de collègues ont travaillé pour ce projet, ils ont défini le projet, l’ont argumenté, le réalise aujourd’hui : c’est un travail d’équipe, long, complexe, parfois périlleux car il faut faire acte de pédagogie et de pragmatisme technique. Je vous invite à consulter ISIDORE, à le critiquer pour le faire évoluer car un outil tel que celui-ci doit évoluer en permanence. Je veux simplement souligner le très grand professionnalisme des collègues, partenaires industriels, qui ont partagé avec moi l’ensemble de la conception/réalisation de ce projet depuis mon arrivée au TGE en avril 2009 : Yannick, Benoit, Ariane, Nadine, Jean-Luc, puis Richard et Jean-Luc, Sophie, Shadia, L’équipe de la maitrise d’œuvre avec un immense respect pour Laurent tout d’abord, puis Daniel, Loic, Philippe, enfin tous les collègues du CNRS qui ont participé, soutenu, critiqué, aidé. Coté prestataires, je souligne le très grand professionnalisme des équipes ont travaillé avec nous et bien sur merci à Bruno, Jean-Louis, Fabrice et Gautier sans qui ISIDORE ne serait pas ISIDORE. Merci à tous !!

Stéphane.

Thésaurus et web de données : l’exemple du Thésaurus W

Les archives de France proposent depuis quelques semaines selon les principes du web de données et du linked data le Thésaurus pour l’indexation des archives locales qui remplace l’édition 1997 du Thésaurus W et la version 2000 des listes d’autorité « actions », « typologie documentaire » et « contexte historique ». Un site web très clair a été réalisé pour l’occasion : il offre la possibilité de consulter le thésaurus bien sur, d’en télécharger une version RDF/XML mais surtout de l’interroger via le langage SPARQL qui est le langage de requête des données structurées en RDF. Ce point d’accès, on le nomme SPARQL end point (point d’accès SPARQL), est illustré de requêtes de démonstration permettant aux débutants en SPARQL d’être un peu autonome dans ce monde encore nouveau. Cette initiative est importante : elle ouvre des données publiques, elle permet de s’appuyer sur les référentiels des Archives de France pour qualifier des données tiers et donc construire des applications web riches. Dans le projet ISIDORE, nous avons d’ailleurs utilisé la liste d’autorités « contexte historique » afin d’accrocher les notices ISIDORE à des périodes historiques. Ce site est un très bel exemple de l’utilisation des méthodes du web de données pour les données publiques.

Accompagner la recherche

Bonne année 2011 à tous !

Le numérique change les métiers de l’information scientifique et technique et de la communication. Il y a quelques semaines, les ingénieurs, les assistants ingénieurs et les techniciens du CNRS travaillant dans le secteur des sciences humaines et sociales étaient réunis à Paris pour une journée d’étude dans laquelle j’ai eu le plaisir de présenter MédiHAL. Je trouve cela très bien car il se créé ainsi une dynamique entre les personnes et les équipes. En discutant avec les collègues j’ai pu mesurer la nécessiter de passer rapidement d’un web de document à un web des données scientifiques fondé sur les principes du web de donnée (dont le RDF) et du linked data (la généralisation des URI). Ce qui m’a le plus frappé est le besoin, clairement exprimé maintenant, de mettre à disposition des données numériques en grande quantité tout en préservant le besoin de qualité de ces données.

Ce qui est également important, c’est la prise de conscience collective que maintenant il est possible de mettre en place des grands réservoirs de données, des bibliothèques de matériaux imprimés, manuscrits, photos, etc. et de le faire dans un cadre de travail standardisé, respectant des normes de description et s’interconnectant avec plusieurs outils d’éditions, de recherche, de traitement de l’information. La construction d’un web des données scientifiques, en SHS, est en marche et il s’intègre dans la construction du web de données général au sens du W3C. Ce web de données scientifiques n’est pas fermé sur lui-même, il est (et doit être) interopérable avec le reste du web de données. J’espère que le mouvement va s’accentuer, se développer.

Dans quelques années, les ingénieurs, assistants ingénieurs, techniciens du monde de la recherche scientifique et de l’enseignement supérieur, pourront construire des applications, des bases de données, des portails qui iront puiser de l’information directement dans le web. Ils iront interroger simultanément de multiples « triple stores » que sont ces grosses bases de données et réservoirs contenant de l’information interconnectée.

Lors de cette journée d’étude j’ai été aussi frappé de l’interaction entre les acteurs présentant des projets, plateformes, outils, méthodes : tous les projets sont interconnectés entre eux et à plusieurs niveaux ; les données aussi sont interopérables, entre elles, mais aussi vers l’extérieur, avec des données du monde entier.

Les données numériques des SHS entrent dans le web de données

Avec l’ouverture d’isidore (réalisée par le très grand équipement Adonis du CNRS) les données numériques des sciences humaines et sociales entre dans le web de données et vont bientôt rejoindre le linking open data cloud diagram ou « Lod » maintenu par Richard Cyganiak (DERI, NUI Galway) and Anja Jentzsch (Freie Universität Berlin), en tous cas, je l’espère.

Isidore est une plateforme de recherche permettant la recherche d’information dans les données numériques des SHS, quelles soient sources pour faire de la recherche ou bien publications des résultats de la recherche. J’ai le plaisir de co-diriger ce projet avec Jean-Luc Minel dans le cadre de l’équipe du Adonis, le très grand équipement du Centre national de la recherche scientifique.

Je profite de ce petit billet « auto-promotionnel » pour remercier Gautier Poupeau (alias Got) sans qui ce projet n’aurait pas pu être conçu et réalisé ainsi que toute l’équipe du centre pour la communication scientifique directe (Laurent Capelli, Philippe Correia, Loic Comparet, Yannick Barborini et Daniel Charnay) qui participe à ce beau projet.

Isidore moissonne des métadonnées et des données selon les protocoles OAI-PMH, des signalements d’actualités via RSS et Atom, des données structurées selon RDFa et peut se connecter à des catalogues de bibliothèques SRU/SRW (z3950). Isidore enrichit ces données en les croisant, en les qualifiant avec des thésaurii, des référentiels, des listes d’auteurs et les ré-exposent selon les principes du linked data. Pour utiliser ces données, un site web a été créé : www.rechercheisidore.fr. Vous pouvez donc interroger les articles de Revues.org, Cairn, Persée, les ouvrages, textes, images de Gallica, HALSHS, MédiHAL avec un seul formulaire et avec des liens entre toutes ces données.

Dans isidore, les métadonnées sont transformées en RDF, ainsi les données des shs entrent dans le web de données.

Mais nous sommes en version béta, alors le travail continu.

Stéphane.

Construire le web de données pour les shs avec les digital humanities

Le web de données est une évolution du web actuel vers un web contenant des données structurées et si possible liées entre elles grâce à l’utilisation de standards documentaires et informatiques internationaux. Les informations contenues dans ces données sont également organisées, structurées, par l’utilisation de schémas (de structuration) dont le plus simple reste le dublin core element set (dit « dublin core simple »). Mais le web de données permet justement de s’affranchir de la contrainte de l’utilisation universelle du DC et de marier plusieurs schémas. Ainsi, dans un futur proche, c’est le web lui-même qui deviendra (en fait, qui devient) une base de données mondiale, structurée et pérenne.

Quel est la différence entre « diffuser sa base de données sur le web » et participer ou construire le web de données ?

Tout d’abord participer à la construction du web de données veut dire que l’on diffuse des données et pas uniquement les métadonnées ou les notices. Cela veut dire que l’on « ouvre » les données au public. L’ensemble des données utilisées par les enseignants et les chercheurs sont concernées quelles soient conservées dans les archives ou bien qu’il s’agisse des données produites par les chercheurs eux-même (enquêtes, articles, ouvrages, photographies, plans, cartes, notes de terrains, …). Il y a bien évidement des questions de confidentialité de l’information mais il est classique aujourd’hui d’appliquer des barrières mobiles aménageant des périodes d’embargo temporels et/ou disciplinaires. Construire le web de données c’est affirmer que l’on va, tout de suite ou dans quelques temps, ouvrir ses données. S’il existe une période d’embargo, il faut dire quand elle se terminera. Par exemple dans MédiHAL, l’archive ouverte de photographies et d’images scientifiques lancée par le CNRS, il est possible de placer une image sous un embargo de 3 ans, ainsi l’image jpg ou tif sera accessible dans 3 ans, en attendant la notice est publique. Dans l’interface et dans les flux OAI-PMH de MédiHAL est indiqué la disponibilité de la données.

Ouvrir ses données, pourquoi faire ?

Principalement, pour avoir accès à une assiette de données plus large permettant de traiter plus d’information afin de valider plus profondément telles ou telles théories ou idées tout en étant capable d’étayer le propos de synthèse en donnant accès à toutes les sources (ou preuves). Depuis 1999, avec l’arrivée des méthodes et protocoles d’interopérabilité des données tel que l’OAI-PMH, une première marche vers le web de données a été franchie : des moteurs de recherche collectent des métadonnées dont la citabilité et l’accès sont pérennes (c’est à dire que les diffuseurs – institutions ou personnes – se donnent les moyens de maintenir et de garantir l’accès) donnant ainsi accès a des données en ligne (textes, images, inventaires de fonds d’archives, articles, ouvrages, etc.). La seconde marche est encore devant nous, nous devons apprendre à structurer systématiquement toutes les données qui sont utiles aux chercheurs pour travailler : ainsi nous devons les qualifier. Les chercheurs, aidés par les bibliothécaires et documentalistes qui sont en première ligne, doivent aider, par exemple, au développement de nouveau outils d’enrichissement des données.

Ouvrir ses données c’est aussi vouloir partager et échanger avec d’autres chercheurs, mais aussi avec la communauté des digital humanties. C’est d’autant plus important que certaines données, utilisées voir collectées par les chercheurs, sont publiques. Bien sur, la recherche est un monde de compétition où les données sont stratégiques, mais je me positionne ici dans le cas de données des SHS, peut-être moins stratégiques, surtout quand elles sont patrimoniales et dans le cadre de données ayant déjà été traitées, au moins partiellement. Pourquoi un doctorant ayant soutenu sa thèse, ne diffuserait-il pas, juste après sa thèse (et après l’avoir déposée elle aussi dans une archive ouverte tel que TEL par exemple) son corpus de sources ? Voir les données qu’il n’a pas eu le temps d’exploiter ?

Heureusement le mouvement est en marche : plusieurs projets, s’inscrivant dans le web de données, sont en cours de réalisation, quelques exemples issus de la communauté des digital humanities :

La structuration des billets des blogs de la plateforme hypotheses.org en RDFa

La réalisation de plateforme ISIDORE du TGE ADONIS

L’expression en RDF des autorités auteurs du catalogue SUDOC de l’ABES

Le développement des projets d’édition électronique de sources historiques utilisant la TEI, qui permet de structurer les textes.

La construction du web de données permettra-t-il de développer de nouveau axe de recherche ? sans doute, mais il apporte également une nouvelle façon de relier les chercheurs en eux de (re)-construire de nouvelles communautés.

Dans un prochain billet et pour illustrer cette notion du web de données par un cas concret, j’aborderai la structuration en RDFa des pages de consultation de la plateforme MédiHAL.