interopérabilité – Archives du blog de Stéphane Pouyllau

Le libre accès privatisé ?

A l’occasion de la semaine du libre accès (open access week, du 21/25 octobre 2013), j’ai découvert un peu plus le projet MyScienceWork (MSW) qui se veut être un projet de réseau social centré sur les sciences. Ces réseaux ne sont pas nouveaux, ils sont assez nombreux : de Researchgate.org à Academia.edu. De façon plus claire, sur la première page de son site web, MSW propose un moteur de recherche assez large et qui affiche au compteur 28 millions de publications, … Certains chercheurs me diront que c’est spectaculaire, merveilleux et qu’il y a tout dans ces moteurs de recherche de réseaux sociaux mais je répondrai qu’il est facile d’afficher 28 millions de publications : il suffit de moissonner soit le web et de trier les sources, soit des entrepôts d’archives ouvertes selon le protocole OAI-PMH et de faire comme OAIster.org il y a quelques années : grossir, grossir, grossir… Ensuite il faut bien sur une interface et des filtres (facettes, etc.). Il est facile de faire du chiffre dans ce domaine là quand l’OAI-PMH permet le moissonnage gratuit de métadonnées et la récupération – par exemple – des articles en PDF qui y sont déposés. Testant le moteur de recherche de MSW justement, quelle ne fut ma « surprise » de voir que ce réseau – tout en se réclamant de libre accès (leur slogan est « MyScienceWork: Frontrunner in Open Access » – en malmène largement les principes ; voir construit son projet en privatisant de la connaissance en libre accès.

Comme beaucoup de personnes, à la vue d’un outil de recherche en ligne, mon narcissisme reprend du poil de la bête, je requête MSW sur mon patronyme : un grand nombre de mes articles, pré-publications, documents sortent. Je me dis alors qu’ils moissonnent HAL-SHS, l’archive ouverte nationale, et que dont voilà une belle initiative valorisant les contenus en libre accès. Hélas, voulant accéder au document PDF de l’un de mes papiers (en libre accès), je découvre qu’il faut avoir un compte MSW pour télécharger le document ou le lire en ligne (c’est à dire utiliser le lecteur PDF de MSW). Résumons, alors que mes articles sont libre accès dans HAL-SHS et au passage que je me suis battu (avec les éditeurs) pour qu’ils le soient, MSW demande aux utilisateurs venant sur leur moteur de recherche de se créer un compte pour voir mes papiers ! Sans compte dans MSW impossible de télécharger l’article PDF ou de le lire.

Pire, il n’est même pas signalé l’origine des publications : ni source, ni référence d’éditeurs, et donc HAL-SHS n’est même pas mentionné ! L’url pérenne fournie par HAL-SHS n’est pas indiquée non plus, le lien proposé pointe sur une adresse « maison » de MSW qui n’a rien de pérenne (elle est explicite, mentionne le nom du réseau : http://www.mysciencework.com/publication/show/1107184/les-moteurs-de-recherche-profitent-aussi-de-la-semantique). Bref, on ne sait pas d’où vient l’article, ni dans quoi il a été publié ! Parfois une mention « In » apparait, mais pas dans mes articles. Voir la différence de traitement du même papier que j’ai déposé dans HAL-SHS et moissonné dans MSW (éditeur mentionné par ex. dans mon dépot HAL-SHS) :

Je garde le meilleur pour la fin, dans le cas des dépôts dans HAL-SHS, aucun des liens proposés par MSW ne permet d’accéder à l’article PDF ! Je me suis créer un compte « pour aller au bout » et surprise : que des pages 404 (au 28/11/13) ! Rien ! Impossible d’atteindre les articles alors qu’ils sont bien dans HAL-SHS. Bien sur, sur ce point, il doit sans doute s’agir d’une interruption « momentanée » des liens (c’est assez classique dans moteur de recherche, lors des ré-indexations), mais quand bien même ils fonctionneraient (les liens) il est difficile de savoir que l’article est en ligne ailleurs, sur HAL-SHS : le lecteur en ligne de MSW est une petite fenêtre en pop-up. Bref, cela ne fait qu’aggraver le cas je trouve, car j’ai l’impression que l’on « cache » le fait que l’article est en ligne en AO avec des métadonnées plus riches (cf. halshs.archives-ouvertes.fr/halshs-00741328).

Pourquoi ? Imaginons un étudiant qui débute cette année en master 2 et qui s’intéresse à l’histoire des maisons fortes du Moyen-âge dans le sud-ouest (bref, moi en 1997) et qui tombe sur le moteur de recherche de MSW. Il tombe sur mon DEA et mes articles sur le Boisset et se dit qu’il doit y avoir dedans des choses à prendre et bien même avec un compte MSW il n’est pas sûr d’avoir accès aux documents ! C’est vraiment dommage car par ailleurs, ils sont sur HAL-SHS, ils sont en libre accès, ils peuvent être cités par leur url (mieux : par les identifiants pérennes handle d’Isidore que je mentionne d’ailleurs dans les métadonnées de HAL-SHS), ils mentionnent l’email et les contacts de l’auteur (au cas où l’étudiant ait envie de me contacter), ils sont reliés à d’autres données dans le cadre d’Isidore (j’espère que sa BU lui a conseillé d’utiliser Isidore)… Bref, d’un coté il a permis à MSW d’engranger de la valeur, mais il n’a pas les documents et donc pas l’information, de l’autre, il a l’information et les documents, le contact, d’autres documents en rapport avec son travail. C’est en cela que je trouve ces pratiques malhonnêtes et que je dis qu’il s’agit de la privatisation de connaissances en libre accès.

J’ai signalé cela sur twitter et MSW m’a répondu sur twitter le 21 octobre 2013 :

J’entends bien que le principe est la collecte d’information afin de faire du profilage de personnes, d’ailleurs construire de la valeur sur des données en libre accès pourquoi pas, cela ne me dérange pas dès lors que l’on n’en « privatise » pas l’accès. Pourquoi MSW (et les autres d’ailleurs) n’indiquent-ils pas l’origine des données, que veulent-ils faire croire ? Qu’ils ne moissonnent pas ? C’est à dire que la valeur de leur réseau ne reposerait que sur des métadonnées ? Il me semble que les acteurs publics du libre accès aux données de la recherche devraient fixer des conditions dans les réutilisations des données des AO par exemple : pourquoi ne pas proposer des licences creatives commons, Etalab ou autres ? Cela devrait faciliter les réutilisations et le fait que les données sont en accès libre sur des plateformes publiques ? Je n’entre pas dans les détails juridiques, je ne suis pas assez compétent dans ce domaine, je réfléchis simplement à un de meilleurs accès à l’information. Les plateformes telles que celle-ci ne devrait elle pas fonder leurs modèles sur la création d’enrichissements, d’éditorialisation des données ? Vous me direz, c’est ce que nous faisons déjà dans Isidore.

En conclusion, étant fonctionnaire et ayant choisi clairement le service public, j’estime que mes travaux doivent être communiqués le plus facilement possible aux publics. Je ne pense pas que les plateformes fondées sur ce modèle favorisent cela et j’estime qu’il y a là une certaine « privatisation » du savoir. Construire de la valeur sur des données gratuites est possible, mais pas en privatisant les données que les auteurs ont placées en libre accès. Ainsi, je souhaite que MSW et les autres réseaux sociaux signalent clairement dans leurs notices :

La source des données moissonnées (archives ouvertes, éditeurs, etc.)
La mention de la licence quand elle existe
Le lien d’origine de la données et l’identifiant pérenne de cette dernière quand il est disponible

Sans doute cela doit nous faire réfléchir, nous acteurs publics de la recherche, aux conditions et règles que souhaitons fixer dans nos interactions (nécessaires) avec la société et donc le monde marchand. Il me semble que les réseaux sociaux, moteurs de recherche sont nécessaires afin de toucher un maximum d’utilisateur et je pense aux étudiants en particulier mais il est de notre responsabilité de favoriser la diffusion des savoirs de façon large et donc de veiller à ce que cela reste possible.

Je rappelle ici, que MSW a organisé en 2013 la semaine du libre accès…

Stéphane.

Lectures pour un été pluvieux ?

Je signale le très bon billet sur l’interopérabilité de Marie-Anne Chabin dans son blog (merci d’ailleurs à Silvère Mercier pour le signalement). Je me suis permis un petit et court commentaire à ce billet car il fait écho en partie aux limites de l’interopérabilité quand elle devient plus une mode qu’un besoin réel. C’est particulièrement vrai dans le monde de l’interopérabilité des métadonnées documentaires ou le protocole OAI-PMH est largement utilisé (ce qui est bien) mais parfois mal maitrisé : Il est courant de tomber sur des entrepôts OAI-PMH qui tentent d’échanger des métadonnées qui, non-normalisées par exemple, ne trouveront pas d’utilisateurs « en face » pour les exploiter réellement.

En écho complémentaire, je signale la journée d’étude « De l’OAI au web de données : Bibliothèques et publications sur Internet » le 12 octobre 2012 qui se propose d’explorer le lien entre interopérabilité et utilisation du web comme lieu de publication même des informations structurées. Pour finir, je me permet de vous encourager de regarder et d’écouter de temps en temps l’intervention d’Emmanuelle Bermes sur le web de données qui éclaire toutes ces notions de façon magistrale.

Explorons les données d’ISIDORE avec SPARQL #1

Depuis quelques semaines, j’ai pris la direction d’une unité mixte de service qui anime la très grande infrastructure de recherche Corpus-IR. Après Adonis et tout en poursuivant un peu l’animation d’Isidore, je reviens avec plaisir dans les corpus de données en SHS. Cela dit, l’avenir d’un projet tel qu’Isidore est très directement lié aux corpus et bases de données qui pourraient être indexés et annotés par Isidore. Les consortiums de Corpus-IR sont déjà au travail et proposeront des corpus de données prochainement. J’espère qu’ils seront structurés avec du RDF et voir même, pour les corpus diffusés sur le web, avec du RDFa.

Ayant donc un peu moins de temps pour écrire dans ce blog, je profite tout de même de quelques minutes pour vous inviter à explorer les possibilités du SPARQL endpoint d’Isidore en lançant ici une petite série de billets. Pour ouvrir la série, une requête permettant de lister les métadonnées des photos et images de MédiHAL géolocalisées sur territoire (je prends ici quelques photos de Djibouti) appartenant au référentiel géographique utilisé dans Isidore, Geonames.org :

PREFIX dcterms: <http://purl.org/dc/terms/> 
PREFIX dces: <http://purl.org/dc/elements/1.1/> 
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

select ?id ?titre ?uri_pays 
?nom_auteur ?prenom_auteur ?coord_geo where { 
<http://www.rechercheisidore.fr/resource/10670/2.hlil75> ?p ?o. 
?o dcterms:identifier ?id. 
?o dcterms:title ?titre. 
?o dcterms:creator ?creator. 
?creator foaf:familyName ?nom_auteur. 
?creator foaf:givenName ?prenom_auteur. 
?o dcterms:coverage ?uri_pays. 
?o dces:coverage ?coord_geo 
FILTER (regex(?id, "10670") 
&& regex(?uri_pays, "223816") 
&& regex(?coord_geo, "[0-9]")) 
} LIMIT 500

En posant cette requête SPARQL dans l’interface d’interrogation SPARQL d’Isidore, il est possible de récupérer les métadonnées, en fait les informations contenues dans les métadonnées, sous la forme de triplets RDF. Ces triplets RDF, base du web de données, peuvent donc être redondant si l’information fait appel aux même étiquettes d’un même vocabulaire (cf ex. ci-dessous). Le résultat de la requête est présenté dans différents formats (RDF/XML ; HTML ; json…).

A partir de là, de nombreuses petites applications web sont possibles, elle sont souvent nommées « mashup » car elles marient, grâce au liant que permet l’utilisation d’URIs à base d’http, plusieurs informations présentes dans le web de données.

Variantes… avec les enrichissements proposés par Isidore et issus des différents traitements effectués :

PREFIX dcterms: <http://purl.org/dc/terms/> 
PREFIX dces: <http://purl.org/dc/elements/1.1/> 
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

select ?id ?titre ?uri_pays ?uri_enrichissements_ISIDORE 
?nom_auteur ?prenom_auteur ?coord_geo where { 
<http://www.rechercheisidore.fr/resource/10670/2.hlil75> ?p ?o. 
?o dcterms:identifier ?id. 
?o dcterms:title ?titre.
?o dcterms:subject ?uri_enrichissements_ISIDORE.
?o dcterms:creator ?creator. 
?creator foaf:familyName ?nom_auteur. 
?creator foaf:givenName ?prenom_auteur. 
?o dcterms:coverage ?uri_pays. 
?o dces:coverage ?coord_geo 
FILTER (regex(?id, "10670") 
&& regex(?uri_pays, "223816") 
&& regex(?coord_geo, "[0-9]")) 
} LIMIT 500

Ou encore avec les mots-clés d’origine et les enrichissements :

PREFIX dcterms: <http://purl.org/dc/terms/> 
PREFIX dces: <http://purl.org/dc/elements/1.1/> 
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

select ?id ?titre ?uri_pays ?mots_cles ?uri_enrichissements_ISIDORE 
?nom_auteur ?prenom_auteur ?coord_geo where { 
<http://www.rechercheisidore.fr/resource/10670/2.hlil75> ?p ?o. 
?o dcterms:identifier ?id. 
?o dcterms:title ?titre.
?o dces:subject ?mots_cles.
?o dcterms:subject ?uri_enrichissements_ISIDORE.
?o dcterms:creator ?creator. 
?creator foaf:familyName ?nom_auteur. 
?creator foaf:givenName ?prenom_auteur. 
?o dcterms:coverage ?uri_pays. 
?o dces:coverage ?coord_geo 
FILTER (regex(?id, "10670") 
&& regex(?uri_pays, "223816") 
&& regex(?coord_geo, "[0-9]")) 
} LIMIT 500

La « vue » des triplets RDF d’une ressource est bien sur directement possible :

SELECT ?graph ?predicat ?object WHERE { 
GRAPH ?graph { <http://www.rechercheisidore.fr/resource/10670/1.f2v6vz> ?predicat ?object. } 
}

Bon, je m’arrête là pour ce premier petit billet qui n’a pas d’autre vocation que de présenter des exemples de requêtes SPARQL sur des données SHS afin de mettre un peu l’eau à la bouche aux développeurs web du domaine qui pourraient ainsi avoir des idées de mashup pour leurs productions. La prochaine fois, je présenterai comment est formé de la requête.

Stéphane.

Les corpus au pays des modules

Dans un billet récent, Alexandre Moatti, faisait quelques remarques sur la bibliothèque numérique de l’Institut. Dans son texte, il fait référence à ICEberg, un logiciel que j’ai créé en 2002-2003 afin de proposer un outil de mise en ligne de corpus numériques. ICEberg a évolué avec le temps et il a été ré-écrit 3 fois depuis 2002.
C’est normal, les outils en ligne (les applications web) sont très vite obsolètes : les briques permettant de les construire (PHP, Python, Jquery, etc.) évoluent en permanence et contraignent donc les développeurs et webmasters à faire régulièrement des nouvelles moutures de leurs programmes. Depuis la généralisation des systèmes de gestion de contenu (CMS) de 2eme et 3eme génération se sont ajoutées aux couches basses (PHP, MySQL, version d’Apache ou d’IIS) une kyrielle de modules qui ont la fâcheuse tendance à ne plus être compatibles avec le noyau du CMS après parfois quelques semaines seulement.
Dans certains cas, des modules importants ont été incorporés dans le noyau ; mais pour beaucoup de fonctionnalités, le recours à de nouveaux modules répondant à des besoins toujours nouveaux (OAI-PMH, « zotero inside », galeries d’images, etc.) est devenu un automatisme pour les webmasters : « oh, il doit y avoir un module qui fait cela ». Dans certains cas, le nombre de modules est déjà très important alors que l’outil lui-même vient tout juste de passer en version 1.0. Si la qualité des modules et leur nombre peuvent être des signes de la vitalité d’un projet, il faut cependant faire attention à bien anticiper la maintenance sur le moyen terme (je dis bien moyen terme, tant le long terme n’est pas compatible avec l’obsolescence des outils web je pense).
Confier de façon exclusive à un module en version béta par exemple, l’interopérabilité OAI-PMH des métadonnées de son corpus, veut dire que l’on prend un risque à moyen terme, si le module n’est plus maintenu pour x. raison(s). Je ne dis pas qu’il ne faut pas l’utiliser, mais il faut avoir conscience du risque et donc avoir des solutions de remplacement. Il faut faire de la veille. Pour illustrer cela, l’animation et la veille faite par l’équipe d’Open Edition sur les modules de la plate-forme hypotheses.org est exemplaire : les modules demandés par les blogueurs sont testés, évalués puis le cas échéants proposés dans les blogs. Cependant, à moyen terme, cela n’enlève pas l’obsolescence technique des modules, mais permet d’anticiper l’évolution. La veille est donc l’indispensable compagnon des administrateurs de sites et bibliothèques.

Mais au delà, je me pose la question de la limite des CMS dans le contexte de la recherche par projets (c’est à dire avec des ruptures de charges). Les bibliothèques scientifiques, universitaires et de recherche devraient développer des structures de conservation des corpus numériques incluant, outre l’archivage pérenne des données, la conservation de la structuration intellectuelle du corpus (structuration des bases de données, manuels de saisie, publications associé aux données, schéma de métadonnées, etc.). Encore une fois, c’est par l’association des métiers et le passage de responsabilité entre les acteurs du domaine que la pérennité deviendra réelle.

Interopérabilité autour de l’édition électronique de la correspondance d’Eugène Delacroix

Le Centre André Chastel (Université de Paris-Sorbonne, Paris IV, CNRS, Ministère de la Culture et de la Communication) propose une édition électronique de la correspondance d’Eugène Delacroix (1798-1863). Accessible sur le site www.correspondance-delacroix.fr, le site est très clair et fonctionnel : il y a un moteur de recherche, un index des noms de personnes, des liens offrent la possibilité de naviguer dans le corpus. La visualisation des lettres est aussi très intéressante : fac-similés (flash, mais visualisation de l’image jpg sous ipad par exemple), transcriptions, notices biographiques, annotations, etc. Le projet semble très bien mené et rentre dans le mouvement des éditions électroniques de correspondances (littéraires, scientifiques, etc.). Ce projet a été financé par l’Agence nationale de la recherche en 2006 (appel Corpus).

On peut cependant regretter d’avoir à faire à un site « clos ».

Je m’explique : les éditeurs ont conçu un site très riche et bien pensé, mais ils n’ont pas mis en place de politique de flux de diffusion (RSS, Atom) permettant par exemple de suivre, depuis un outil de veille, les mises à jour des annotations afin de suivre les débats des spécialistes. C’est dommage car le site se veut vivant : « …grâce à la mise en ligne, [les transcriptions et annotations] seront toujours susceptibles de modifications et d’ajouts » est-il précisé dans la présentation du projet. Quel est le système de transcriptions qui a été utilisé ? Text Encoding Initiative ? Nous ne le savons pas : c’est dommage car cela aurait marqué un peu la préoccupation des éditeurs en matière d’archivage des transcriptions (même si TEI n’est pas parfait, c’est déjà au moins du XML). Autre manque : alors qu’un effort a été visiblement fait pour rendre citable les url des lettres (indépendance des liens vis à vis du système de publication), il n’est pas fait état d’un hypothétique entrepôt OAI-PMH permettant de moissonner les métadonnées des lettres de Delacroix afin de les diffuser dans les portail tel OAIster, Gallica ou ISIDORE, comme c’est le cas pour les correspondances d’André-Marie Ampère ou encore Buffon. Est-ce une volonté des éditeurs ? un oubli par manque d’information (OAI-PMH reste tout de même assez mal connu) ? Je ne sais pas. Mais, je pense qu’il est toujours dommage de ne pas disséminer les contenus d’une édition électronique d’une œuvre scientifique, littéraire ou artistique vers des portails thématiques ou disciplinaires afin de communiquer plus largement les sources de la recherche et de les rapprocher d’autres ressources. Globalement, le corpus est certes utilisable mais est-il réutilisable ? Je l’espère. En tout cas, il me tarde de voir signaler les échanges épistolaires d’Eugène Delacroix dans ISIDORE (qui contient déjà 256 ressources sur ce dernier).

Bielefeld Academic Search Engine

Le portail BASE (Bielefeld Academic Search Engine) est un aggrégateur OAI-PMH moissonnant 1890 entrepôts OAI dans le monde (au 2 juillet 2011) et donnant accès à 28.911.265 notices. Utilisant Solr et le système d’opac VuFind, BASE est accessible via un site web très clair, rapide et fonctionnel. Sans proposer, comme dans ISIDORE, un enrichissement des métadonnées à l’aide de référentiels, ni l’indexation du texte intégral des données jointes aux notices OAI, BASE est un outil très performant qui fait partie des fournisseurs de services. « Fournisseurs de services »… cette expression, un peu obscure je trouve, désigne le plus souvent les portails documentaires moissonnant des métadonnées selon le protocole OAI-PMH. Après OAIster (aujourd’hui dissout dans l’offre d’OCLC), Scientificcommons.org, BASE a ses adeptes. En tous cas, ce projet conforte certains choix que nous avons fait dans ISIDORE : la mise en place d’un annuaire des entrepôts moissonnés (« A data resources inventory provides transparency in the searches« , voir dans « About BASE« ) ou encore la notion de web profond ou invisible « Discloses web resources of the « Deep Web », which are ignored by commercial search engines or get lost in the vast quantity of hits.« . Bien sur, la notion de facettes, mais calculées uniquement sur les contenus des métadonnées moissonnées : « Refine your search result » options (authors, subject headings, year, resources and language).

Limité à OAI-PMH, et donc à des métadonnées proposées sous la forme d’atomes sans relief, ce type de portail, comme ISIDORE d’ailleurs, devra évoluer car il est toujours un peu frustrant de ne pas naviguer dans des données en « relief ». ISIDORE, avec son SPARQL end point RDF contenant plus de 40 millions de triplets RDF, va déjà un peu plus loin, mais il nous faut imaginer des nouveaux systèmes de navigation et de signalement pour ces informations structurées en RDF.

Stéphane.

Accompagner la recherche

Bonne année 2011 à tous !

Le numérique change les métiers de l’information scientifique et technique et de la communication. Il y a quelques semaines, les ingénieurs, les assistants ingénieurs et les techniciens du CNRS travaillant dans le secteur des sciences humaines et sociales étaient réunis à Paris pour une journée d’étude dans laquelle j’ai eu le plaisir de présenter MédiHAL. Je trouve cela très bien car il se créé ainsi une dynamique entre les personnes et les équipes. En discutant avec les collègues j’ai pu mesurer la nécessiter de passer rapidement d’un web de document à un web des données scientifiques fondé sur les principes du web de donnée (dont le RDF) et du linked data (la généralisation des URI). Ce qui m’a le plus frappé est le besoin, clairement exprimé maintenant, de mettre à disposition des données numériques en grande quantité tout en préservant le besoin de qualité de ces données.

Ce qui est également important, c’est la prise de conscience collective que maintenant il est possible de mettre en place des grands réservoirs de données, des bibliothèques de matériaux imprimés, manuscrits, photos, etc. et de le faire dans un cadre de travail standardisé, respectant des normes de description et s’interconnectant avec plusieurs outils d’éditions, de recherche, de traitement de l’information. La construction d’un web des données scientifiques, en SHS, est en marche et il s’intègre dans la construction du web de données général au sens du W3C. Ce web de données scientifiques n’est pas fermé sur lui-même, il est (et doit être) interopérable avec le reste du web de données. J’espère que le mouvement va s’accentuer, se développer.

Dans quelques années, les ingénieurs, assistants ingénieurs, techniciens du monde de la recherche scientifique et de l’enseignement supérieur, pourront construire des applications, des bases de données, des portails qui iront puiser de l’information directement dans le web. Ils iront interroger simultanément de multiples « triple stores » que sont ces grosses bases de données et réservoirs contenant de l’information interconnectée.

Lors de cette journée d’étude j’ai été aussi frappé de l’interaction entre les acteurs présentant des projets, plateformes, outils, méthodes : tous les projets sont interconnectés entre eux et à plusieurs niveaux ; les données aussi sont interopérables, entre elles, mais aussi vers l’extérieur, avec des données du monde entier.

Les données numériques des SHS entrent dans le web de données

Avec l’ouverture d’isidore (réalisée par le très grand équipement Adonis du CNRS) les données numériques des sciences humaines et sociales entre dans le web de données et vont bientôt rejoindre le linking open data cloud diagram ou « Lod » maintenu par Richard Cyganiak (DERI, NUI Galway) and Anja Jentzsch (Freie Universität Berlin), en tous cas, je l’espère.

Isidore est une plateforme de recherche permettant la recherche d’information dans les données numériques des SHS, quelles soient sources pour faire de la recherche ou bien publications des résultats de la recherche. J’ai le plaisir de co-diriger ce projet avec Jean-Luc Minel dans le cadre de l’équipe du Adonis, le très grand équipement du Centre national de la recherche scientifique.

Je profite de ce petit billet « auto-promotionnel » pour remercier Gautier Poupeau (alias Got) sans qui ce projet n’aurait pas pu être conçu et réalisé ainsi que toute l’équipe du centre pour la communication scientifique directe (Laurent Capelli, Philippe Correia, Loic Comparet, Yannick Barborini et Daniel Charnay) qui participe à ce beau projet.

Isidore moissonne des métadonnées et des données selon les protocoles OAI-PMH, des signalements d’actualités via RSS et Atom, des données structurées selon RDFa et peut se connecter à des catalogues de bibliothèques SRU/SRW (z3950). Isidore enrichit ces données en les croisant, en les qualifiant avec des thésaurii, des référentiels, des listes d’auteurs et les ré-exposent selon les principes du linked data. Pour utiliser ces données, un site web a été créé : www.rechercheisidore.fr. Vous pouvez donc interroger les articles de Revues.org, Cairn, Persée, les ouvrages, textes, images de Gallica, HALSHS, MédiHAL avec un seul formulaire et avec des liens entre toutes ces données.

Dans isidore, les métadonnées sont transformées en RDF, ainsi les données des shs entrent dans le web de données.

Mais nous sommes en version béta, alors le travail continu.

Stéphane.

La communauté française des digital humanities

THATCamp Paris 2010, sur la Baleine blanche - Crédits : Elodie Picard / CC

Après deux jours d’ateliers, démos, débats, discussions le THATCamp Paris 2010, la non-conférence sur les digital humanities, lance le Manifeste des digital humanities. Ce texte, fondateur de la communauté des digital humanities en France est très important. Il a permis tout d’abord de répondre à la question posée dans le THATCamp : « voulons-nous travailler ensemble ? ». La réponse est largement positive à mon sens.

Ce besoin de travailler ensemble est partagé par tous, et nous avons vu qu’il dépasse bien évidement les cadres institutionnels actuels. C’est une vision personnelle, mais ces derniers me semblent peu adaptés au développement d’une communauté qui a conscience que les actions locales se font mieux si elle s’appuient sur des structures nationales mutualisées (ex. grilles de calcul, infrastructures d’hébergement de données, services d’archivage de données numériques). J’invite tous les lecteurs de ce blog, qui soient ou qui se sentent acteurs des digital humanities à signer ce Manifeste qui pose les bases claires d’une communauté se donnant des objectifs précis.

Je pense en particulier aux documentalistes qui sont dans les laboratoires de recherche des sciences humaines et sociales, et dont certains étaient au THATCamp Paris 2010, mais que je trouve toujours trop absents de ces moments de réflexion sur l’évolution des métiers, méthodes, etc. Les documentalistes font un travail de production sur le terrain très important. Au delà des centres de documentation et des bibliothèques de recherche, certains coordonnent réellement des projets de recherche sur le plan documentaire et donc sont pleinement dans les problématiques dont nous avons discutées lors de ces deux jours.

Par exemple, le point 14 du Manifeste propose de construire, de façon itérative, des cyberinfrastructures correspondant à des besoins réels. Voici un chalenge difficile, pris entre les intérêts des économies locales de la recherche proches des chercheurs (Universités, Maisons des sciences de l’homme par exemple) et ceux « inter-nationaux », européens par exemple, pourtant nécessaires mais complexe à comprendre tant il est difficile pour un chercheur de s’y projeter.
Un exemple a été pris par Got sur les questions de l’archivage des données numériques (la mémoire du XXIe siècle). Il faut accepter de faire confiance à une autre institution, à une autre personne, pour archiver ses propres données, issues d’une collecte qui a pu prendre, parfois, toute une vie. « Accepter de faire confiance » c’est avant tout reconnaitre que l’on est pas compétent pour traiter tel ou tel sujets, ou techniques, ou méthode. Cela ne veut pas dire que l’on va perdre « la main » sur les données (les mécanismes de contrôle d’accès existent et sont fiables). Cela ne veut pas dire non plus qu’il ne faut pas tenter de comprendre (loin de moi l’idée de saucissonner les métiers et les taches), mais c’est reconnaitre qu’à un moment, il faut accepter de faire 10 à 15% d’un travail pour lequel l’on ne sera pas reconnu, qui ne comptera pas dans son évaluation personnelle, afin de transmettre à un autre de l’information afin qu’il l’archive, la traite, l’édite, la valorise, la distribue, etc. et vous la repasse parfois pour en faire autre chose. C’est l’un des enjeux majeur du Manifeste selon moi. Les cyberinfrastructures seront ce que nous en ferons, pour cela il faut accepter de faire 10 à 15% du chemin vers le collègue (l’ingénieur ou le chercheur) qui a une ou plusieurs compétences et donc qui a un Métier. C’est aussi considérer que ce qu’il fait est égal à ce l’on fait. Publier un article dans une revue de rang A est égal à concevoir un logiciel permettant de calculer des résultats à partir de données : la seconde tache permettant de faire la première, la première est dépendante de la seconde et la seconde sans la première dans pas de finalité réelle (exception faite pour les questions d’archivages).

Pour moi, il s’agit là d’une formidable aventure que la communauté des digital humanities, rassemblée autour du Manifeste, doit mener.

Crédits photos : Elodie Picard/CLEO-Revues.org – Licence Creative Commons : Attribution-NonCommercial-NoDerivs 2.0 Generic

THATCamp Paris 2010 : la communauté des digital humanities de France s’organise

La première non-conférence française sur les sciences humaines et sociales numériques (digital humanities) se tient depuis hier matin et se poursuit aujourd’hui à Paris, sur une péniche entre la BNF et le ministère des finances Bercy : David contre des Goliats ? Non, pas réellement, cette communauté est très ouverte : c’est le THATCamp Paris 2010. Cette non-conférence regroupe des ingénieurs, des enseignants-chercheurs, des techniciens, des chercheurs, des prestataires de services venant du privé, des doctorants, des post-doc, des artistes qui ont envie et besoin de travailler ensemble pour concevoir des nouvelles méthodes de travail, de nouveaux outils hybrides (hyper mashup-é), de mélanger des métiers, construire des cyber-infrastructures itératives afin de donner du liant et du sens numérique aux projets de recherche en sciences humaines et sociales. Ces projets ont pour la plupart un volet numérique (ne serait-ce que la bibliographie mise en commun entre les chercheurs d’un projet) et de plus en plus de projet doivent diffuser à la fois les sources et résultats de leurs recherches. Donc, il y avait beaucoup de monde hier sur cette péniche et l’ambiance était très studieuse, sérieuse mais aussi très chaleureuse. J’ai eu le plaisir d’animer un atelier sur les fonds iconographiques numériques qui, j’espère, a été intense pour les participants (que je remercie au passage). Le compte-rendu de cette atelier sera diffusé en ligne, sur le wiki du THATCamp Paris 2010 et les grandes lignes serviront, sans doute, à construire le Manifeste qui sortira, entre autres choses, de cette non-conférence. A quand la prochaine édition ?

Interopérabilité : faire des choix, échanger, gérer le temps

Interopérabilité : faire des choix

L’inconvénient du Dublin Core simple (DC Elements Set) est qu’il nivelle « vers le bas » la richesse de nos bases de données : tous les professionnels de l’information scientifique le savent. Mais cependant, l’exposition de métadonnées en DC simple permet un exercice très intéressant lorsque l’on construit une base de données que l’on souhaite interopérable (via OAI-PMH principalement) : Qu’est-ce qui est important de diffuser, de mes données, puisque je n’ai que 15 champs pour le faire avec le DC simple ?

Je ne me m’empêcher d’oser faire le parallèle avec une technique utilisée lors que l’on étudie les textes du Moyen-Âge et qui est enseigné à l’Université : L’analyse. Je me souviens de mes TP de 2eme année de DEUG d’histoire du Moyen-Âge à Bordeaux, ou la chargée de cours nous disait : « faites comme si vous alliez perdre le texte et donc rédigez un texte, plus court, plus simple, qui en trace les grandes lignes du contenu ». Donc, je dois projeter de l’information venant d’une base de données vers du DC simple, j’ai toujours l’impression de faire une analyse. Comment donner envie au lecteur de cliquez pour aller voir le texte complet, la collection d’images, etc. ? Dans le monde informatique, ce travail là est souvent nommé « mapping » et l’on entend donc « faire un mapping ». Il s’agit de faire des choix, exemple :

Si dans ma base de données j’ai deux champs pour décrire un auteur – un pour le prénom et un pour le nom – je vais par exemple les regrouper dans un seul champs DC simple (du type dc:creator) sous une forme qui sera un choix, ex. : dc.creator:Pierre MARTIN ou bien, autre choix : dc.creator:MARTIN P. ; dans tous les cas, je fais un choix qu’il faudra que j’assume (ce choix peut être collectif ou s’appuyer sur des règles de présentation normalisées, qui, suivant ma communauté m’y aidera fortement). Mais j’insiste sur ce fait : je fais un choix.

Interopérabilité : échanger (suis-je seul ?)

Souvent, dans les projets de recherche, le temps consacré à la modélisation de la base de données fait la part belle à la structuration riche de l’information à traiter : c’est normal. Mais parfois je pense qu’il est intéressant de travailler aussi et de façon importante, sur un modèle de diffusion et/ou d’interopérabilité utilisant le DC simple. Cela permet de faire des choix différents et surtout cela entraine un temps « de respiration documentaire » dans la conception qui permet de se poser une autre question : suis-je seul à faire ce type de base de données ? J’encourage tous les chercheurs que je croise à prendre le temps pour se poser cette question lors qu’ils sont en phase de démarrage d’un projet (et de trouver surement des collègues qui ont déjà travaillé sur ces questions de modélisation). J’aime bien cette idée car elle donne aussi du sens à l’interopérabilité des métadonnées. J’encourage aussi les chercheurs qui font des bases de données de publier systématiquement les choix qu’ils ont fait en matière d’interopérabilité et de les dater. Cela permet de voir les versions successives du travail. L’interopérabilité sert à cela aussi : à ne pas être seul.

Interopérabilité : le temps

Faire des choix en matière d’édition électronique de bases de données, c’est accepter le principe qu’une base peut être diffusée via plusieurs vecteurs ayant une granularité différente et évolutive dans le temps. Il est possible, après être passé par la case « DC simple », de vouloir d’autres types de structuration des métadonnées, par exemple du MODS, ou du MIX pour les métadonnées techniques d’une images (ou de l’IPTC-Core pour les métadonnées descriptives) ou plus naturellement du DC Terms. DC Terms élargi le DC simple en lui adossant d’autres champs possibles, il est plus riche. Pour faire cela, il faudra faire d’autres mapping, d’autres « analyses » et donc assumer d’autres choix. Cette évolutive possible, dans la façon de diffuser des métadonnées et donc les données numériques qui y sont attachées, donne une nouvelle responsabilité aux producteurs/éditeur de base de donnée qui sont souvent les chercheurs : ces objets ne sont pas figés une fois publiés, il faut les entretenir : refaire des choix, étendre les jeux de structuration, etc. L’interopérabilité c’est aussi la gestion du temps vis à vis de son corpus de donnée.

De l’interopérabilité au web de données

J’ai eu la chance de participer à l’Université d’été de l’édition électronique (Marseille, 7-11 septembre 2009) où j’ai parlé d’interopérabilité et de circulation de l’information scientifique et technique. J’ai axé mon propos sur le fait que l’interopérabilité des données est peut-être la première marche vers la mise en place du web de données. Il est probable que pour faire le web de données il nous faille passer d’abord par un web des données (comptons aussi un peu sur les institutions françaises pour cela) même si l’appropriation et l’utilisation de standards communs est de plus en plus naturel et que l’utilisation du Dublin Core Element Set ne fait plus réellement débat dans la communauté scientifique. Gautier Poupeau a présenté dans un billet une mise au point entre la notion de web sémantique et celle de web de données qui résume assez bien ma vision des choses sur ce que le web de données pourrait être et pourquoi il est important que les professionnels de l’information scientifique et technique soient dans ce train là.

Le web de données c’est la réalisation d’une base de données mondiale ou les données sont-elles même sur le réseau (et pas juste leurs méta-données). En discutant avec des chercheurs, collectant des données et les stockant sur leurs petits disques dur dans leurs bureaux, j’ai envie de leur dire à la façon de Tim Berners Lee : « libérez vos données ! mettez-les sur le réseau ! vous faites des images ? renseignez bien vos champs de description IPTC-Core et mettez vos images sur le réseau ! ». Bien sur, il y a 1.000.000 de raisons pour qu’ils ne le fasse pas : ils ont une recherche en cours que le voisin veut surement leur voler, ils pensent que seul l’article final leur permettra d’être (re)-connus, et peut-être, ce ne sont pas leurs photos. Les documentalistes, bibliothécaire, archivistes ont un rôle majeur dans la réalisation d’un web qui contiendra des données « brutes » (certains disent primaires, factuelles, de terrains, d’enquêtes, etc.). Je renvois au projet data.gov ou nous imaginons bien le travail d’IST qui peut s’y développer. Construire le web de données nécessite de structurer les données avant qu’elles n’existent parfois. Dans les Sciences humaines et sociales, il faut aider les chercheurs – dont le volet technique, normatif, informatique n’est pas le métier – a le faire. Il faut leur expliquer, ce que j’aurai sans doute pu mieux faire à Marseille, que l’augmentation de la masse des données brutes, maintenant accessible, permet aux chercheurs de travailler sur des corpus plus larges, mieux documentés.

L’interopérabilité des données c’est mettre en œuvre une politique scientifique et technique permettant :

de rendre (plus) accessible ces propres données dans un maximum de langages documentaires partagés par le plus grand nombre ;
de garantir l’accessibilité de ces données dans temps : ceci pour la citabilité des données dont la privatisation, par le DOI par exemple, pourrait avoir des conséquences dramatiques. Je milite là pour une évolution des identifiants OAI ou autres vers de véritables identifiants pérennes et uniques, garantis par un organisme international type UNESCO ;
de faire vivre des données numériques : ajout de classifications, de schémas de description (documentaires dans un premier temps), prise en charge de pérennité des données par le développement de formats pivots pour la préservation ;

Ces trois items sont, pour moi, les trois piliers de l’interopérabilité des données dans une optique future du web de données. Aujourd’hui, il nous est difficile de sortir du carcan de la pensée documentaire comme dirait Got car les méthodes, techniques et outils qui sont enseignés correspondent encore au monde d’avant le web et nous n’avons pas encore d’outils de masse pour le monde d’après le web, mais ils arrivent et il nous faut faire œuvre de pédagogie. En attendant, nous chérissons nos méta-données. Il nous faut nous interroger sur l’encapsulation des méta-données descriptives dans les données (étape n°2 sur le chemin du web de données ?), mais aussi comment signaler à nos machines que la description d’une image est là au milieu des bits de l’image.

L’interopérabilité des données entre machines, via des méta-données, est la première marche, le premier pas vers le web de données. Si plusieurs techniques existent, l’OAI-PMH couplé aux descriptions en Dublin Core, représente le plus souvant le volet technique, informatique de l’interopérabilité des données aux yeux des professionnels de l’IST. La mise à plat des méta-données, dans l’OAI-PMH, a un avantage : il met à plat réellement les méta-données et nous oblige à repenser le rapport entre données, méta-données et le fait que, avec l’OAI-PMH, ce qui en sort, c’est du XML et pas une page web en HTML. On utilise le web pour faire autre chose que du HTML et des « pages » ; tout en se gardant la possibilité d’en faire, le web muterait-il ?. Nous faisons des flux de méta-données dans un langage pour des machines (aujourd’hui c’est du XML, mais demain…) : le web n’est pas que le territoire du HTML, il devient dynamique, il est un flux. Avec l’OAI-PMH, ce qui sort, c’est du flux XML (fluxml, cela fait vieux médicament) et pas une page web, pourtant il y a dedans de l’information mais nous échangeons juste de l’information sur la données, il nous faut aller plus loin. L’interopérabilité des données c’est presque un web des données.

Le mouvement est-il en marche ? Le réseau national des documentalistes du CNRS organise en octobre 2009 trois jours autour de l’OAI-PMH et j’espère son évolution future OAI-ORE. En 2010 aura lieu une seconde école thématique, très pratique, sur les sources numériques et l’interopérabilité des données. Ces sessions de formation continue sont bien évidement le reflet de ce qui se passe dans les IUT et à l’Université. Il me semble que ces éléments en sont des signes favorables.