Les corpus au pays des modules

Dans un billet récent, Alexandre Moatti, faisait quelques remarques sur la bibliothèque numérique de l’Institut. Dans son texte, il fait référence à ICEberg, un logiciel que j’ai créé en 2002-2003 afin de proposer un outil de mise en ligne de corpus numériques. ICEberg a évolué avec le temps et il a été ré-écrit 3 fois depuis 2002.
C’est normal, les outils en ligne (les applications web) sont très vite obsolètes : les briques permettant de les construire (PHP, Python, Jquery, etc.) évoluent en permanence et contraignent donc les développeurs et webmasters à faire régulièrement des nouvelles moutures de leurs programmes. Depuis la généralisation des systèmes de gestion de contenu (CMS) de 2eme et 3eme génération se sont ajoutées aux couches basses (PHP, MySQL, version d’Apache ou d’IIS) une kyrielle de modules qui ont la fâcheuse tendance à ne plus être compatibles avec le noyau du CMS après parfois quelques semaines seulement.
Dans certains cas, des modules importants ont été incorporés dans le noyau ; mais pour beaucoup de fonctionnalités, le recours à de nouveaux modules répondant à des besoins toujours nouveaux (OAI-PMH, « zotero inside », galeries d’images, etc.) est devenu un automatisme pour les webmasters : « oh, il doit y avoir un module qui fait cela ». Dans certains cas, le nombre de modules est déjà très important alors que l’outil lui-même vient tout juste de passer en version 1.0. Si la qualité des modules et leur nombre peuvent être des signes de la vitalité d’un projet, il faut cependant faire attention à bien anticiper la maintenance sur le moyen terme (je dis bien moyen terme, tant le long terme n’est pas compatible avec l’obsolescence des outils web je pense).
Confier de façon exclusive à un module en version béta par exemple, l’interopérabilité OAI-PMH des métadonnées de son corpus, veut dire que l’on prend un risque à moyen terme, si le module n’est plus maintenu pour x. raison(s). Je ne dis pas qu’il ne faut pas l’utiliser, mais il faut avoir conscience du risque et donc avoir des solutions de remplacement. Il faut faire de la veille. Pour illustrer cela, l’animation et la veille faite par l’équipe d’Open Edition sur les modules de la plate-forme hypotheses.org est exemplaire : les modules demandés par les blogueurs sont testés, évalués puis le cas échéants proposés dans les blogs. Cependant, à moyen terme, cela n’enlève pas l’obsolescence technique des modules, mais permet d’anticiper l’évolution. La veille est donc l’indispensable compagnon des administrateurs de sites et bibliothèques.

Mais au delà, je me pose la question de la limite des CMS dans le contexte de la recherche par projets (c’est à dire avec des ruptures de charges). Les bibliothèques scientifiques, universitaires et de recherche devraient développer des structures de conservation des corpus numériques incluant, outre l’archivage pérenne des données, la conservation de la structuration intellectuelle du corpus (structuration des bases de données, manuels de saisie, publications associé aux données, schéma de métadonnées, etc.). Encore une fois, c’est par l’association des métiers et le passage de responsabilité entre les acteurs du domaine que la pérennité deviendra réelle.

Interopérabilité autour de l’édition électronique de la correspondance d’Eugène Delacroix

Le Centre André Chastel (Université de Paris-Sorbonne, Paris IV, CNRS, Ministère de la Culture et de la Communication) propose une édition électronique de la correspondance d’Eugène Delacroix (1798-1863). Accessible sur le site www.correspondance-delacroix.fr, le site est très clair et fonctionnel : il y a un moteur de recherche, un index des noms de personnes, des liens offrent la possibilité de naviguer dans le corpus. La visualisation des lettres est aussi très intéressante : fac-similés (flash, mais visualisation de l’image jpg sous ipad par exemple), transcriptions, notices biographiques, annotations, etc. Le projet semble très bien mené et rentre dans le mouvement des éditions électroniques de correspondances (littéraires, scientifiques, etc.). Ce projet a été financé par l’Agence nationale de la recherche en 2006 (appel Corpus).

On peut cependant regretter d’avoir à faire à un site « clos ».

Je m’explique : les éditeurs ont conçu un site très riche et bien pensé, mais ils n’ont pas mis en place de politique de flux de diffusion (RSS, Atom) permettant par exemple de suivre, depuis un outil de veille, les mises à jour des annotations afin de suivre les débats des spécialistes. C’est dommage car le site se veut vivant : « …grâce à la mise en ligne, [les transcriptions et annotations] seront toujours susceptibles de modifications et d’ajouts » est-il précisé dans la présentation du projet. Quel est le système de transcriptions qui a été utilisé ? Text Encoding Initiative ? Nous ne le savons pas : c’est dommage car cela aurait marqué un peu la préoccupation des éditeurs en matière d’archivage des transcriptions (même si TEI n’est pas parfait, c’est déjà au moins du XML). Autre manque : alors qu’un effort a été visiblement fait pour rendre citable les url des lettres (indépendance des liens vis à vis du système de publication), il n’est pas fait état d’un hypothétique entrepôt OAI-PMH permettant de moissonner les métadonnées des lettres de Delacroix afin de les diffuser dans les portail tel OAIster, Gallica ou ISIDORE, comme c’est le cas pour les correspondances d’André-Marie Ampère ou encore Buffon. Est-ce une volonté des éditeurs ? un oubli par manque d’information (OAI-PMH reste tout de même assez mal connu) ? Je ne sais pas. Mais, je pense qu’il est toujours dommage de ne pas disséminer les contenus d’une édition électronique d’une œuvre scientifique, littéraire ou artistique vers des portails thématiques ou disciplinaires afin de communiquer plus largement les sources de la recherche et de les rapprocher d’autres ressources. Globalement, le corpus est certes utilisable mais est-il réutilisable ? Je l’espère. En tout cas, il me tarde de voir signaler les échanges épistolaires d’Eugène Delacroix dans ISIDORE (qui contient déjà 256 ressources sur ce dernier).

ISIDORE : valorisons les données des sciences humaines et sociales

Aujourd’hui, j’ai le plaisir de participer au lancement officiel d’ISIDORE, la plateforme de recherche dans les données numériques de la recherche en sciences humaines et sociales. Réalisée par le très grand équipement Adonis du CNRS, ISIDORE est une production collective qui a associé depuis plus de deux ans des acteurs publics et des acteurs privés au sein d’un marché de réalisation. Public tout d’abord : ISIDORE est un projet qui est la matérialisation concrète du projet fondateur du TGE Adonis : donner accès à de l’information, ouvrir des données, rendre visible la production des chercheurs et les données qu’ils utilisent pour travailler. Au sein du TGE Adonis un grand nombre de collègues ont travaillé pour ce projet, ils ont défini le projet, l’ont argumenté, le réalise aujourd’hui : c’est un travail d’équipe, long, complexe, parfois périlleux car il faut faire acte de pédagogie et de pragmatisme technique. Je vous invite à consulter ISIDORE, à le critiquer pour le faire évoluer car un outil tel que celui-ci doit évoluer en permanence. Je veux simplement souligner le très grand professionnalisme des collègues, partenaires industriels, qui ont partagé avec moi l’ensemble de la conception/réalisation de ce projet depuis mon arrivée au TGE en avril 2009 : Yannick, Benoit, Ariane, Nadine, Jean-Luc, puis Richard et Jean-Luc, Sophie, Shadia, L’équipe de la maitrise d’œuvre avec un immense respect pour Laurent tout d’abord, puis Daniel, Loic, Philippe, enfin tous les collègues du CNRS qui ont participé, soutenu, critiqué, aidé. Coté prestataires, je souligne le très grand professionnalisme des équipes ont travaillé avec nous et bien sur merci à Bruno, Jean-Louis, Fabrice et Gautier sans qui ISIDORE ne serait pas ISIDORE. Merci à tous !!

Stéphane.

Accompagner la recherche

Bonne année 2011 à tous !

Le numérique change les métiers de l’information scientifique et technique et de la communication. Il y a quelques semaines, les ingénieurs, les assistants ingénieurs et les techniciens du CNRS travaillant dans le secteur des sciences humaines et sociales étaient réunis à Paris pour une journée d’étude dans laquelle j’ai eu le plaisir de présenter MédiHAL. Je trouve cela très bien car il se créé ainsi une dynamique entre les personnes et les équipes. En discutant avec les collègues j’ai pu mesurer la nécessiter de passer rapidement d’un web de document à un web des données scientifiques fondé sur les principes du web de donnée (dont le RDF) et du linked data (la généralisation des URI). Ce qui m’a le plus frappé est le besoin, clairement exprimé maintenant, de mettre à disposition des données numériques en grande quantité tout en préservant le besoin de qualité de ces données.

Ce qui est également important, c’est la prise de conscience collective que maintenant il est possible de mettre en place des grands réservoirs de données, des bibliothèques de matériaux imprimés, manuscrits, photos, etc. et de le faire dans un cadre de travail standardisé, respectant des normes de description et s’interconnectant avec plusieurs outils d’éditions, de recherche, de traitement de l’information. La construction d’un web des données scientifiques, en SHS, est en marche et il s’intègre dans la construction du web de données général au sens du W3C. Ce web de données scientifiques n’est pas fermé sur lui-même, il est (et doit être) interopérable avec le reste du web de données. J’espère que le mouvement va s’accentuer, se développer.

Dans quelques années, les ingénieurs, assistants ingénieurs, techniciens du monde de la recherche scientifique et de l’enseignement supérieur, pourront construire des applications, des bases de données, des portails qui iront puiser de l’information directement dans le web. Ils iront interroger simultanément de multiples « triple stores » que sont ces grosses bases de données et réservoirs contenant de l’information interconnectée.

Lors de cette journée d’étude j’ai été aussi frappé de l’interaction entre les acteurs présentant des projets, plateformes, outils, méthodes : tous les projets sont interconnectés entre eux et à plusieurs niveaux ; les données aussi sont interopérables, entre elles, mais aussi vers l’extérieur, avec des données du monde entier.

Les données numériques des SHS entrent dans le web de données

Avec l’ouverture d’isidore (réalisée par le très grand équipement Adonis du CNRS) les données numériques des sciences humaines et sociales entre dans le web de données et vont bientôt rejoindre le linking open data cloud diagram ou « Lod » maintenu par Richard Cyganiak (DERI, NUI Galway) and Anja Jentzsch (Freie Universität Berlin), en tous cas, je l’espère.

Isidore est une plateforme de recherche permettant la recherche d’information dans les données numériques des SHS, quelles soient sources pour faire de la recherche ou bien publications des résultats de la recherche. J’ai le plaisir de co-diriger ce projet avec Jean-Luc Minel dans le cadre de l’équipe du Adonis, le très grand équipement du Centre national de la recherche scientifique.

Je profite de ce petit billet « auto-promotionnel » pour remercier Gautier Poupeau (alias Got) sans qui ce projet n’aurait pas pu être conçu et réalisé ainsi que toute l’équipe du centre pour la communication scientifique directe (Laurent Capelli, Philippe Correia, Loic Comparet, Yannick Barborini et Daniel Charnay) qui participe à ce beau projet.

Isidore moissonne des métadonnées et des données selon les protocoles OAI-PMH, des signalements d’actualités via RSS et Atom, des données structurées selon RDFa et peut se connecter à des catalogues de bibliothèques SRU/SRW (z3950). Isidore enrichit ces données en les croisant, en les qualifiant avec des thésaurii, des référentiels, des listes d’auteurs et les ré-exposent selon les principes du linked data. Pour utiliser ces données, un site web a été créé : www.rechercheisidore.fr. Vous pouvez donc interroger les articles de Revues.org, Cairn, Persée, les ouvrages, textes, images de Gallica, HALSHS, MédiHAL avec un seul formulaire et avec des liens entre toutes ces données.

Dans isidore, les métadonnées sont transformées en RDF, ainsi les données des shs entrent dans le web de données.

Mais nous sommes en version béta, alors le travail continu.

Stéphane.

Sciences humaines et sociales numériques

Bonjour,
Très prochainement, deux évènements vont avoir lieu dans le monde des sciences humaines et sociales numériques (cette expression fait encore débat pour la version française du terme digital humanities) : le THATCamp Paris 2010 (Paris, 18/19 mai 2010) et la formation sur la gestion numérique des sources de la recherche en sciences humaines et sociales (Aussois, 11/15 octobre 2010) et dont le wiki va être ouvert dans quelques jours sur le site www.digitalhumanities.fr. Ces évènements sont importants. Ils montrent le mouvement actuel d’organisation des shs numériques. Les acteurs du domaine, institutionnels mais aussi informels structurent ce vaste « eldorado ». Depuis deux, trois ans, les actions de formation mais aussi de nombreux ateliers et séminaires se sont multipliés partout en France et les acteurs du domaine, chercheurs, informaticiens, documentalistes et bibliothécaires travaillent de plus en plus en coopération. Des utilisateurs vont à la rencontre de plateformes, services et des communautés de veilleurs naissent et diffusent via de « nouveaux » canaux. Récemment, une collègue de la bibliothèque universitaire de Lyon 1 a présenté sa démarche et son parcours pour la création d’une photothèque utilisant comme réservoir de données MédiHAL. Même si MédiHAL évolue petit à petit, suite aux critiques, conseils, retours des utilisateurs, je suis très heureux de voir que cette application est aussi utilisée en tant que simple conteneur de données. Le projet de la BU de Lyon 1 n’utilise les possibilités de l’OAI-PMH (avec moissonnage du dc:terms par exemple), il utilise cependant MédiHAL comme un simple conteneur (archivé à long terme très bientôt) ainsi il me tarde de voir les premières applications documentaires ou sites web qui viendront moissonner tel ou tel « sets » (collections) OAI-PMH de MédiHAL. Les sciences humaines et sociales numériques comme dirait Lou Burnard sont en pleine évolution : les applications sont en plein « mashup-age », l’archivage à long terme devient une réalité pour les données des SHS et bientôt, sans doute, les résultats de la recherche seront connectés aux matériaux sources de la recherche.

Stéphane.

Interopérabilité : faire des choix, échanger, gérer le temps

Interopérabilité : faire des choix

L’inconvénient du Dublin Core simple (DC Elements Set) est qu’il nivelle « vers le bas » la richesse de nos bases de données : tous les professionnels de l’information scientifique le savent. Mais cependant, l’exposition de métadonnées en DC simple permet un exercice très intéressant lorsque l’on construit une base de données que l’on souhaite interopérable (via OAI-PMH principalement) : Qu’est-ce qui est important de diffuser, de mes données, puisque je n’ai que 15 champs pour le faire avec le DC simple ?

Je ne me m’empêcher d’oser faire le parallèle avec une technique utilisée lors que l’on étudie les textes du Moyen-Âge et qui est enseigné à l’Université : L’analyse. Je me souviens de mes TP de 2eme année de DEUG d’histoire du Moyen-Âge à Bordeaux, ou la chargée de cours nous disait : « faites comme si vous alliez perdre le texte et donc rédigez un texte, plus court, plus simple, qui en trace les grandes lignes du contenu ». Donc, je dois projeter de l’information venant d’une base de données vers du DC simple, j’ai toujours l’impression de faire une analyse. Comment donner envie au lecteur de cliquez pour aller voir le texte complet, la collection d’images, etc. ? Dans le monde informatique, ce travail là est souvent nommé « mapping » et l’on entend donc « faire un mapping ». Il s’agit de faire des choix, exemple :

Si dans ma base de données j’ai deux champs pour décrire un auteur – un pour le prénom et un pour le nom – je vais par exemple les regrouper dans un seul champs DC simple (du type dc:creator) sous une forme qui sera un choix, ex. : dc.creator:Pierre MARTIN ou bien, autre choix : dc.creator:MARTIN P. ; dans tous les cas, je fais un choix qu’il faudra que j’assume (ce choix peut être collectif ou s’appuyer sur des règles de présentation normalisées, qui, suivant ma communauté m’y aidera fortement). Mais j’insiste sur ce fait : je fais un choix.

Interopérabilité : échanger (suis-je seul ?)

Souvent, dans les projets de recherche, le temps consacré à la modélisation de la base de données fait la part belle à la structuration riche de l’information à traiter : c’est normal. Mais parfois je pense qu’il est intéressant de travailler aussi et de façon importante, sur un modèle de diffusion et/ou d’interopérabilité utilisant le DC simple. Cela permet de faire des choix différents et surtout cela entraine un temps « de respiration documentaire » dans la conception qui permet de se poser une autre question : suis-je seul à faire ce type de base de données ? J’encourage tous les chercheurs que je croise à prendre le temps pour se poser cette question lors qu’ils sont en phase de démarrage d’un projet (et de trouver surement des collègues qui ont déjà travaillé sur ces questions de modélisation). J’aime bien cette idée car elle donne aussi du sens à l’interopérabilité des métadonnées. J’encourage aussi les chercheurs qui font des bases de données de publier systématiquement les choix qu’ils ont fait en matière d’interopérabilité et de les dater. Cela permet de voir les versions successives du travail. L’interopérabilité sert à cela aussi : à ne pas être seul.

Interopérabilité : le temps

Faire des choix en matière d’édition électronique de bases de données, c’est accepter le principe qu’une base peut être diffusée via plusieurs vecteurs ayant une granularité différente et évolutive dans le temps. Il est possible, après être passé par la case « DC simple », de vouloir d’autres types de structuration des métadonnées, par exemple du MODS, ou du MIX pour les métadonnées techniques d’une images (ou de l’IPTC-Core pour les métadonnées descriptives) ou plus naturellement du DC Terms. DC Terms élargi le DC simple en lui adossant d’autres champs possibles, il est plus riche. Pour faire cela, il faudra faire d’autres mapping, d’autres « analyses » et donc assumer d’autres choix. Cette évolutive possible, dans la façon de diffuser des métadonnées et donc les données numériques qui y sont attachées, donne une nouvelle responsabilité aux producteurs/éditeur de base de donnée qui sont souvent les chercheurs : ces objets ne sont pas figés une fois publiés, il faut les entretenir : refaire des choix, étendre les jeux de structuration, etc. L’interopérabilité c’est aussi la gestion du temps vis à vis de son corpus de donnée.

De l’interopérabilité au web de données

J’ai eu la chance de participer à l’Université d’été de l’édition électronique (Marseille, 7-11 septembre 2009) où j’ai parlé d’interopérabilité et de circulation de l’information scientifique et technique. J’ai axé mon propos sur le fait que l’interopérabilité des données est peut-être la première marche vers la mise en place du web de données. Il est probable que pour faire le web de données il nous faille passer d’abord par un web des données (comptons aussi un peu sur les institutions françaises pour cela) même si l’appropriation et l’utilisation de standards communs est de plus en plus naturel et que l’utilisation du Dublin Core Element Set ne fait plus réellement débat dans la communauté  scientifique. Gautier Poupeau a présenté dans un billet une mise au point entre la notion de web sémantique et celle de web de données qui résume assez bien ma vision des choses sur ce que le web de données pourrait être et pourquoi il est important que les professionnels de l’information scientifique et technique soient dans ce train là.

Le web de données c’est la réalisation d’une base de données mondiale ou les données sont-elles même sur le réseau (et pas juste leurs méta-données). En discutant avec des chercheurs, collectant des données et les stockant sur leurs petits disques dur dans leurs bureaux, j’ai envie de leur dire à la façon de Tim Berners Lee : « libérez vos données ! mettez-les sur le réseau ! vous faites des images ? renseignez bien vos champs de description IPTC-Core et mettez vos images sur le réseau ! ». Bien sur, il y a 1.000.000 de raisons pour qu’ils ne le fasse pas : ils ont une recherche en cours que le voisin veut surement leur voler, ils pensent que seul l’article final leur permettra d’être (re)-connus, et peut-être, ce ne sont pas leurs photos. Les documentalistes, bibliothécaire, archivistes ont un rôle majeur dans la réalisation d’un web qui contiendra des données « brutes » (certains disent primaires, factuelles, de terrains, d’enquêtes, etc.). Je renvois au projet data.gov ou nous imaginons bien le travail d’IST qui peut s’y développer. Construire le web de données nécessite de structurer les données avant qu’elles n’existent parfois. Dans les Sciences humaines et sociales, il faut aider les chercheurs – dont le volet technique, normatif, informatique n’est pas le métier – a le faire. Il faut leur expliquer, ce que j’aurai sans doute pu mieux faire à Marseille, que l’augmentation de la masse des données brutes, maintenant accessible, permet aux chercheurs de travailler sur des corpus plus larges, mieux documentés.

L’interopérabilité des données c’est mettre en œuvre une politique scientifique et technique permettant :

  • de rendre (plus) accessible ces propres données dans un maximum de langages documentaires partagés par le plus grand nombre ;

  • de garantir l’accessibilité de ces données dans temps : ceci pour la citabilité des données dont la privatisation, par le DOI par exemple, pourrait avoir des conséquences dramatiques. Je milite là pour une évolution des identifiants OAI ou autres vers de véritables identifiants pérennes et uniques, garantis par un organisme international type UNESCO ;

  • de faire vivre des données numériques : ajout de classifications, de schémas de description (documentaires dans un premier temps), prise en charge de pérennité des données par le développement de formats pivots pour la préservation ;

Ces trois items sont, pour moi, les trois piliers de l’interopérabilité des données dans une optique future du web de données. Aujourd’hui, il nous est difficile de sortir du carcan de la pensée documentaire comme dirait Got car les méthodes, techniques et outils qui sont enseignés correspondent encore au monde d’avant le web et nous n’avons pas encore d’outils de masse pour le monde d’après le web, mais ils arrivent et il nous faut faire œuvre de pédagogie. En attendant, nous chérissons nos méta-données. Il nous faut nous interroger sur l’encapsulation des méta-données descriptives dans les données (étape n°2 sur le chemin du web de données ?), mais aussi comment signaler à nos machines que la description d’une image est là au milieu des bits de l’image.

L’interopérabilité des données entre machines, via des méta-données, est la première marche, le premier pas vers le web de données. Si plusieurs techniques existent, l’OAI-PMH couplé aux descriptions en Dublin Core, représente le plus souvant le volet technique, informatique de l’interopérabilité des données aux yeux des professionnels de l’IST. La mise à plat des méta-données, dans l’OAI-PMH, a un avantage : il met à plat réellement les méta-données et nous oblige à repenser le rapport entre données, méta-données et le fait que, avec l’OAI-PMH, ce qui en sort, c’est du XML et pas une page web en HTML. On utilise le web pour faire autre chose que du HTML et des « pages » ; tout en se gardant la possibilité d’en faire, le web muterait-il ?. Nous faisons des flux de méta-données dans un langage pour des machines (aujourd’hui c’est du XML, mais demain…) : le web n’est pas que le territoire du HTML, il devient dynamique, il est un flux. Avec l’OAI-PMH, ce qui sort, c’est du flux XML (fluxml, cela fait vieux médicament) et pas une page web, pourtant il y a dedans de l’information mais nous échangeons juste de l’information sur la données, il nous faut aller plus loin. L’interopérabilité des données c’est presque un web des données.

Le mouvement est-il en marche ? Le réseau national des documentalistes du CNRS organise en octobre 2009 trois jours autour de l’OAI-PMH et j’espère son évolution future OAI-ORE. En 2010 aura lieu une seconde école thématique, très pratique, sur les sources numériques et l’interopérabilité des données. Ces sessions de formation continue sont bien évidement le reflet de ce qui se passe dans les IUT et à l’Université. Il me semble que ces éléments en sont des signes favorables.

Des données brutes 2.0

L’administration Américaine a lancé data.gov : une plateforme d’accès aux données brutes de la santé, l’environnement, l’énergie, recherche, éducation. C’est très (trop?) ambitieux, voir utopique (mais il s’agit des USA) et d’ailleurs cet avis est partagé. Mais l’initiative est là et la plateforme déjà en ligne : il s’agit d’un projet hybride entre archives, recherche et accès. Ce projet, une récente discussion avec Got, croisée d’une journée avec les collègues du Centre de calcul de l’IN2P3-CNRS (qui héberge beaucoup de données issues des SHS), m’a conforté sur la notion et la nécessité de réservoirs de données brutes pour la recherche en SHS.

Ces réservoirs existent aujourd’hui dans les laboratoires de SHS, mais les données qu’ils contiennent sont souvent encore perçues comme des données « privés », réservées aux chercheurs locaux. Il est vrai qu’ils les ont collectées ou générées et ce travail n’est pas réellement reconnu dans le parcours d’un chercheur alors qu’il est fondamental. Ces données « pour la recherche » ont donc souvent tendance à « mourir » au fond de nos disques durs faut d’une infrastructure double : archivage des données (pour l’histoire), diffusion des données « brutes » et pas forcement éditorialisées dans une publication électronique académique mais mise à disposition de la communauté scientifique comportant un minimum d’appareil éditorial basé sur le Dublin Core Terms par exemple.  D’autant que souvent, ces données ont été collectées ou générées sur fonds publics (ne serait ce que le salaire du chercheur).

Bien sur, il faut pondérer ici le fait que certaines données sont sensibles de part leur nature et que la mise à disposition ou la diffusion est complexe et nécessite des barrières mobiles parfois très longues.

En france, il existe des initiatives intéressantes, encore trop peu soutenues financièrement, mais cela avance, cela se structure et des formations, pour les chercheurs et enseignants-chercheurs, voient le jour tel que l’université d’été de l’édition scientifique ouverte, qui aura lieu en septembre 2009, ou bien l’école thématique des centres nationaux de ressources numériques du CNRS dont le wiki est en ligne avec toutes les communications, les bibliographies numériques, en ligne, etc.

Alors, en ce mois de juillet, j’ai envie de dire : « ouvrez vos données à vos collègues et au monde » et j’espère aussi, soyons fou, un donnees.gouv.fr ?

Il est temps, dirons certains, que je parte en vacances.

Stéphane.

science et correspondances : un blog pour les réseaux de savants

Quand les chercheurs utilisent les blogs cela peut donner ceci : Le Projet Correspondances.

Le « Projet Correspondances » est un projet de recherche international porté par mon laboratoire qui :

« vise à l’étude de correspondances entre savants européens des 17ème-20ème siècles, en particulier à travers l’utilisation d’éditions électroniques. Qu’apporte une édition électronique par rapport à une édition papier ? Quelles sont les difficultés et les contraintes d’une version électronique ? Quels outils mettre en oeuvre ? Quelles nouvelles recherches peuvent être menées ?

Un groupe d’historiens et informaticiens, français et étrangers, travaillant à l’édition de correspondances (D’Alembert, Ampère, les Bernouilli, Buffon, Euler, Lavoisier, Poincaré, Valisneri,… ) se réunit régulièrement au Centre de Recherche en Histoire des Sciences et des Techniques (UMR CNRS 8560) pour travailler sur ces questions. Ce groupe s’est donné comme premier objectif de réfléchir à l’élaboration d’outils les plus communs possibles pour l’édition électronique : constitution des bases de données, modèle commun pour rendre les différentes correspondances visibles sur internet via l’OAI (Open Archive Initiative, voir www.openarchives.org), outils d’édition, etc. »

Je trouve très intéressant ce type de site car il permet – à peu de frais et très rapidement – de présenter et de « souder » une équipe inter-structures autour du contenu d’un projet. Certains diront qu’il est difficile de faire écrire les chercheurs directement dans un blog… Ceci est vrai si le format blog est présenté comme un substitut à une édition électronique ou, pire, papier. Or là, point de concurrence entre publication et blog, nous avons un support rapide (notez que je parle par de média) permettant à un groupe d’accrocher réflexions, analyses, notes de réunions, référentiels, guides de bonnes pratiques, etc. Nous sommes loin de l’image des chercheurs travaillant dans leurs coins, ne diffusant rien de leurs travaux, etc.

Stéphane.

Trancodage de dates informatiques

Bonsoir,

Un petit script php très simple pour convertir une date du type AAAA-MM-JJ HH:MM:SS en date normée suivant RFC 822 utilisée dans les flux RSS ou dans le monde OAI-PMH :

$datedepart = '2007-09-10 00:00:00'; // on entre la date (qui peut venir d'un champ de type datetime de SGBDR : MySQL, PostgreSQL, etc.)
list($date, $hours) = split(' ', $datedepart);
list($year,$month,$day) = split('-',$date);
list($hour,$min,$sec) = split(':',$hours);

$date = date(r,mktime($hour, $min, $sec, $month, $day, $year));
print "$date";

Stéphane.

Source : http://www.phpfreaks.com/quickcode/from-MySQL-datetime-to-RFC-822-for-RSS/597.php

Décrire un objet numérique ou numérisé : utilisation du Dublin Core

Bonjour,
La semaine passée un chercheur me demande : « J’entends parler de métadonnées en Dublin Core, qu’est-ce ? ». Après explication, je me suis aperçu que faire l’association entre les champs d’une base de donnée – décrivant des objets numériques ou numérisés – et la notion de métadonnées XML n’était pas forcement naturelle. Plus qu’une différence de vocabulaire, il s’agit d’un terrain inconnu avec son lot de mystères et de rumeurs inquiétantes. La notion de champs de description, dans une base de données comportant une ou plusieurs tables, est assez connue aujourd’hui ; mais l’interaction entre ces champs et des métadonnées est assez nouvelle pour le grand public. L’information stockée dans un champ d’une table de données (par exemple le nom de l’auteur du document, ou sa date) peut être utilisée de différente façon. C’est là l’une des clés de la compréhension des métadonnées. Cette information peut être affichée directement sur un site web via l’intermédiaire d’un programme informatique (écrit en PHP ou Perl par exemple). Mais elle peut également servir à renseigner la valeur d’une balise HTML (dans une entête de fichier HTML), ou la valeur d’une balise XML (dans un fichier XML servant à échanger ou préserver donc de l’information de façon indépendante via à vis des logiciels courants).

Prenons l’exemple de deux équipes de recherche qui souhaitent échanger des informations. Chacune des équipes a créé une base de données qui a, pour des raisons historiques et pratiques, des champs différents : c’est à dire que les modélisations sont différentes car les besoins ont été listés sans concertation au départ. L’un des moyens pour échanger des informations entre ces deux bases de données est d’avoir un format commun aux deux équipes : par exemple s’échanger des fichiers textes (ou XML) en ayant structuré l’information de telle façon que les deux équipes seront capables de ranger ces informations dans les bonnes « cases » (champs) de leurs bases de données respectives.
Il existe pour cela des normes de structuration de l’information (l’on dit aussi grammaire ou syntaxe). L’une des plus utile dans le monde de la recherche est la norme Dublin Core (ou DC). Le DC est une norme simple de description bibliographique créée pour les documents numériques. Le DC définit un ensemble d’éléments (l’on dira métadonnées ou « données de données ») qui sont au nombre de 15 pour le DC dit « non qualifié » (norme ISO 15836 de février 2003) :

  • -le titre,
  • -le créateur,
  • -l’éditeur,
  • -le sujet,
  • -la description (sorte de résumé, qui peut se rapprocher de « l’Analyse » pour les médiévistes),
  • -la source,
  • -la langue,
  • -la relation (relation ou lien avec une autre ressource DC),
  • -la couverture (l’aspect spatio-temporelle de la ressource : géographies, chronologie),
  • -la date,
  • -le type (images, sons, textes),
  • -le format (le format de la ressource : txt ; wmv ; pdf ; ogg ; php ; mov ; rtf ; ops ; etc),
  • -l’identificateur (DOI ; URL ; id OAI-PMH),
  • -le contributeur (personne physique ou moral ayant participée à l’élaboration de la ressource),
  • -les droits.

Ainsi, il est facilement possible de configurer une base de données MySQL, PostgreSQL, MS-Access ou même OpenOffice suivant ces « champs » et de créer un format de sortie XML reprennant les 15 élements DC. C’est le coeur, par exemple, des enregistrements dans un entrepôt OAI-PMH :

<record>
   <header>
    <identifier>oai:www.crhst.cnrs.fr:hstl-000101</identifier>
    <datestamp>2007-01-15T15:04:36Z</datestamp>
    <setSpec>manuscript</setSpec>
   </header>
   <metadata>
     <oai_dc:dc
       xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/"
       xmlns:dc="http://purl.org/dc/elements/1.1/"
       xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
       xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/
       http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
      <dc:title>Autobiographie d'Ampère.</dc:title>
      <dc:creator>André-Marie AMPERE</dc:creator>
      <dc:subject>history</dc:subject>
      <dc:description>Cahier manuscrit de 16 feuillets dont les 8 premiers feuillets sont autographes...</dc:description>
      <dc:publisher>Christine BLONDEL</dc:publisher>
      <dc:contributor>CNRS, CRHST</dc:contributor>
      <dc:contributor>HSTL : Delphine USAL</dc:contributor>
      <dc:date>1824-00-00</dc:date>
      <dc:type>studies materials</dc:type>
      <dc:type>text</dc:type>
      <dc:format>xhtml from databases</dc:format>
      <dc:identifier>http://www.ampere.cnrs.fr/ice/ice_book_detail-fr-text-ampere-ampere_text-8-3.html</dc:identifier>
      <dc:source>http://www.ampere.cnrs.fr/ice/ice_book_detail-fr-text-ampere-ampere_text-8-3.html</dc:source>
      <dc:language>french</dc:language>
      <dc:coverage>ampère</dc:coverage>
      <dc:coverage>autobiographie</dc:coverage>
      <dc:coverage>electricity</dc:coverage>
      <dc:coverage>AMPERE</dc:coverage>
      <dc:coverage>XIXe</dc:coverage>
      <dc:coverage>France</dc:coverage>
      <dc:rights>public domain</dc:rights>
     </oai_dc:dc>
   </metadata>
  </record>

Nous voyons bien dans ce cas, que les balises XML utilisant le DC sont au coeur de la notice (dc:title par exemple). La notice XML, écrite en DC, est encapsulée dans d’autres balise XML propres à l’OAI-PMH. Cette notice XML DC est en fait générée par un script PHP (que nous pouvons nommer application ou programme) à partir d’une base de données MySQL.

Bonne journée,

Stéphane.

OAI-PMH v2.0 et XSLT Style Sheet

Bonjour,

J’explore en ce moment le monde de l’OAI-PMH. J’ai développé pour mon équipe un entrepôt OAI-PMH en m’appuyant sur l’outil – très pratique et simple – de H. Stamerjohanns : phpoai2 Data Provider. Cet outil utilise la brique PEAR et PostgreSQL ou MySQL pour le stockage des références (mais grâce à PEAR il est facile de le lier à autre chose).

L’entrepôt de mon laboratoire diffuse des références et donc donne accès à des sources historiques : ouvrages rares, manuscrits, documents scientifiques, carnets de notes de savants, etc. Le protocole OAI-PMH, finalement très simple, intéresse un très grand nombre d’institution de recherche de part le monde (je ne me lancerai pas là dans un inventaire à la Prévert) et il semble être le meilleur protocole de diffusion de références et de données grâce à XML. L’XMLisation de ce protocole permet la répartition des charges entre entrepôts et fournisseurs de services.

Il est possible de donner un regard plus « humain » au flux OAI à l’aide la feuille de style XSL développée par nos amis du GNU EPrints project. Elle est très pratique cette feuille XSL car elle permet de transformer en XHTML les flux issus des verbes OAI. Cela permet de créer une visualisation du flux XML dans un simple navigateur, les moteurs de recherche s’en régaleront, un seul entrepôt, un flux de données, le moissonnage classique par OAIster et en plus, la consultation web classique, voir l’indexation par des moteurs de recherche « standards » ou très locaux (htdig par exemple).

Stéphane.

Diffusion de sources historiques via le protocole OAI-PMH (partie 2)

Bonjour,
Après avoir testé en interne mon serveur OAI-PMH je me suis lancé !
Je l’ai soumis à OAIster qui semble être le plus grand portail d’accès à des ressources OAI…. Réactivité maximale, 24h après la soumission, me voila délivrant des ressources issues des sites du Centre de Recherche en Histoire des Sciences et des Techniques via de l’OAI-PMH.

Mon serveur OAI-PMH est développé en PHP et utilise DOM, plus une petite base de données très simple tournant sous PostgreSQL qui reprend les informations issues de mon outil ICEberg. L’idée est d’avoir une « web-application » minimale à maintenir dans le futur (l’un des clés de la pérennisation des données par ailleurs).

Diffusion de sources historiques via le protocole OAI-PMH (partie 1)

Bonsoir,
La mise au point du serveur OAI-PMH du CRHST est presque terminée. Il me manque la mise en place du ResumptionToken qui n’est d’ailleurs pas très simple a réaliser. J’ai utilisé PHP, mon langage préféré, pour le monter. En s’appuyant sur DOM XML, c’est très facile… donc il est en ligne : http://www.crhst.cnrs.fr/esources/
Moissonnez !
Stéphane.