MédiHAL : une photo pour une archive ouverte de photographies scientifiques

Mari, Tell Hariri Couple assis et buste d'un personnage barbu Syrie, Syria n° d'inventaire : 01105, Ifpo Institut Français Du Proche-Orient

Après quelques mois de travail avec l’équipe du Centre pour la communication scientifique directe (CCSD, www.ccsd.cnrs.fr) du CNRS, j’ai le plaisir de vous annoncer la création de MédiHAL : une archive ouverte de photographies et d’images scientifiques.

En juin 2006, dans les début du CN2SV, Fabrice Melka (du Cemaf-CNRS) et moi-même avions rédigé un projet qui jetait les bases de ce projet. A l’époque nous avions appelé cela « AOPS » : pour Archive Ouverte de Photographies Scientifiques. A l’époque nous pensions développer cela entre nous au CN2SV, comme nous l’avons fait notre autre plateforme AOMS, mais très rapidement nous avons compris qu’il nous fallait une équipe pour nous aider à réaliser ce projet qui nous tenait à cœur.

MédiHAL utilise le logiciel HAL qui est utilisé en France pour l’archive ouverte HAL. dont nous avons retravaillé le modèle de métadonnées. MédiHAL permet de cataloguer, géo-référencer et indexer les images et c’est Shadia Kilouchi, documentaliste contractuelle au CNRS, travaillant au CN2SV, qui a réalisé ce travail de modélisation et de réflexion documentaire en relation avec un grand nombre de collègues du CNRS et des universités. Je suis très heureux de voir que ce projet a mobilisé pour son élaboration des documentalistes, des développeurs, des chercheurs, qui ont travaillé ensemble autour de cette idée. Je remercie tous ceux qui nous ont aidé et qui supportent MédiHAL.

Dans un premier temps, MédiHAL est un réservoir de données pour les chercheurs et les enseignants qui souhaite archiver leurs images et permettre leur diffusion. Nous avons plus travailler sur le premier point, qui nous simple être un peu l’urgence aujourd’hui. Mais nous souhaitons petit à petit, selon les demandes, améliorer les outils et services pour la diffusion des images dépôts. A terme, j’espère que cette archive ouverte sera utilisée pour diffuser des corpus de chercheurs et de laboratoires. Nous encourageons les chercheurs qui ont souvent fait pendant plusieurs décennies des photos, pour leurs travaux de recherche, a les déposer dans MédiHAL  afin de les sécuriser (trop de disques durs et d’ordinateurs s’arrêtent sans prévenir, non ?) et de les diffuser (dans le respect des droits d’auteurs et des personnes).

Pour finir, la petite histoire de l’illustration du site MédiHAL. J’ai utilisé une photo que j’ai faite en juillet 2008, dans le centre de documentation/photothèque REGARDS (Pessac), Université de Bordeaux – CNRS. Il s’agit d’un meuble permettant de ranger un fichier de notices décrivant des photographies de géographie. Ce fichier est celui de la photothèque du CEGET, ancien laboratoire de recherche du CNRS. Il s’agit d’un « MédiHAL local » de l’époque…

banque d'images du CEGET - CNRS

Interopérabilité : faire des choix, échanger, gérer le temps

Interopérabilité : faire des choix

L’inconvénient du Dublin Core simple (DC Elements Set) est qu’il nivelle « vers le bas » la richesse de nos bases de données : tous les professionnels de l’information scientifique le savent. Mais cependant, l’exposition de métadonnées en DC simple permet un exercice très intéressant lorsque l’on construit une base de données que l’on souhaite interopérable (via OAI-PMH principalement) : Qu’est-ce qui est important de diffuser, de mes données, puisque je n’ai que 15 champs pour le faire avec le DC simple ?

Je ne me m’empêcher d’oser faire le parallèle avec une technique utilisée lors que l’on étudie les textes du Moyen-Âge et qui est enseigné à l’Université : L’analyse. Je me souviens de mes TP de 2eme année de DEUG d’histoire du Moyen-Âge à Bordeaux, ou la chargée de cours nous disait : « faites comme si vous alliez perdre le texte et donc rédigez un texte, plus court, plus simple, qui en trace les grandes lignes du contenu ». Donc, je dois projeter de l’information venant d’une base de données vers du DC simple, j’ai toujours l’impression de faire une analyse. Comment donner envie au lecteur de cliquez pour aller voir le texte complet, la collection d’images, etc. ? Dans le monde informatique, ce travail là est souvent nommé « mapping » et l’on entend donc « faire un mapping ». Il s’agit de faire des choix, exemple :

Si dans ma base de données j’ai deux champs pour décrire un auteur – un pour le prénom et un pour le nom – je vais par exemple les regrouper dans un seul champs DC simple (du type dc:creator) sous une forme qui sera un choix, ex. : dc.creator:Pierre MARTIN ou bien, autre choix : dc.creator:MARTIN P. ; dans tous les cas, je fais un choix qu’il faudra que j’assume (ce choix peut être collectif ou s’appuyer sur des règles de présentation normalisées, qui, suivant ma communauté m’y aidera fortement). Mais j’insiste sur ce fait : je fais un choix.

Interopérabilité : échanger (suis-je seul ?)

Souvent, dans les projets de recherche, le temps consacré à la modélisation de la base de données fait la part belle à la structuration riche de l’information à traiter : c’est normal. Mais parfois je pense qu’il est intéressant de travailler aussi et de façon importante, sur un modèle de diffusion et/ou d’interopérabilité utilisant le DC simple. Cela permet de faire des choix différents et surtout cela entraine un temps « de respiration documentaire » dans la conception qui permet de se poser une autre question : suis-je seul à faire ce type de base de données ? J’encourage tous les chercheurs que je croise à prendre le temps pour se poser cette question lors qu’ils sont en phase de démarrage d’un projet (et de trouver surement des collègues qui ont déjà travaillé sur ces questions de modélisation). J’aime bien cette idée car elle donne aussi du sens à l’interopérabilité des métadonnées. J’encourage aussi les chercheurs qui font des bases de données de publier systématiquement les choix qu’ils ont fait en matière d’interopérabilité et de les dater. Cela permet de voir les versions successives du travail. L’interopérabilité sert à cela aussi : à ne pas être seul.

Interopérabilité : le temps

Faire des choix en matière d’édition électronique de bases de données, c’est accepter le principe qu’une base peut être diffusée via plusieurs vecteurs ayant une granularité différente et évolutive dans le temps. Il est possible, après être passé par la case « DC simple », de vouloir d’autres types de structuration des métadonnées, par exemple du MODS, ou du MIX pour les métadonnées techniques d’une images (ou de l’IPTC-Core pour les métadonnées descriptives) ou plus naturellement du DC Terms. DC Terms élargi le DC simple en lui adossant d’autres champs possibles, il est plus riche. Pour faire cela, il faudra faire d’autres mapping, d’autres « analyses » et donc assumer d’autres choix. Cette évolutive possible, dans la façon de diffuser des métadonnées et donc les données numériques qui y sont attachées, donne une nouvelle responsabilité aux producteurs/éditeur de base de donnée qui sont souvent les chercheurs : ces objets ne sont pas figés une fois publiés, il faut les entretenir : refaire des choix, étendre les jeux de structuration, etc. L’interopérabilité c’est aussi la gestion du temps vis à vis de son corpus de donnée.

De l’interopérabilité au web de données

J’ai eu la chance de participer à l’Université d’été de l’édition électronique (Marseille, 7-11 septembre 2009) où j’ai parlé d’interopérabilité et de circulation de l’information scientifique et technique. J’ai axé mon propos sur le fait que l’interopérabilité des données est peut-être la première marche vers la mise en place du web de données. Il est probable que pour faire le web de données il nous faille passer d’abord par un web des données (comptons aussi un peu sur les institutions françaises pour cela) même si l’appropriation et l’utilisation de standards communs est de plus en plus naturel et que l’utilisation du Dublin Core Element Set ne fait plus réellement débat dans la communauté  scientifique. Gautier Poupeau a présenté dans un billet une mise au point entre la notion de web sémantique et celle de web de données qui résume assez bien ma vision des choses sur ce que le web de données pourrait être et pourquoi il est important que les professionnels de l’information scientifique et technique soient dans ce train là.

Le web de données c’est la réalisation d’une base de données mondiale ou les données sont-elles même sur le réseau (et pas juste leurs méta-données). En discutant avec des chercheurs, collectant des données et les stockant sur leurs petits disques dur dans leurs bureaux, j’ai envie de leur dire à la façon de Tim Berners Lee : « libérez vos données ! mettez-les sur le réseau ! vous faites des images ? renseignez bien vos champs de description IPTC-Core et mettez vos images sur le réseau ! ». Bien sur, il y a 1.000.000 de raisons pour qu’ils ne le fasse pas : ils ont une recherche en cours que le voisin veut surement leur voler, ils pensent que seul l’article final leur permettra d’être (re)-connus, et peut-être, ce ne sont pas leurs photos. Les documentalistes, bibliothécaire, archivistes ont un rôle majeur dans la réalisation d’un web qui contiendra des données « brutes » (certains disent primaires, factuelles, de terrains, d’enquêtes, etc.). Je renvois au projet data.gov ou nous imaginons bien le travail d’IST qui peut s’y développer. Construire le web de données nécessite de structurer les données avant qu’elles n’existent parfois. Dans les Sciences humaines et sociales, il faut aider les chercheurs – dont le volet technique, normatif, informatique n’est pas le métier – a le faire. Il faut leur expliquer, ce que j’aurai sans doute pu mieux faire à Marseille, que l’augmentation de la masse des données brutes, maintenant accessible, permet aux chercheurs de travailler sur des corpus plus larges, mieux documentés.

L’interopérabilité des données c’est mettre en œuvre une politique scientifique et technique permettant :

  • de rendre (plus) accessible ces propres données dans un maximum de langages documentaires partagés par le plus grand nombre ;

  • de garantir l’accessibilité de ces données dans temps : ceci pour la citabilité des données dont la privatisation, par le DOI par exemple, pourrait avoir des conséquences dramatiques. Je milite là pour une évolution des identifiants OAI ou autres vers de véritables identifiants pérennes et uniques, garantis par un organisme international type UNESCO ;

  • de faire vivre des données numériques : ajout de classifications, de schémas de description (documentaires dans un premier temps), prise en charge de pérennité des données par le développement de formats pivots pour la préservation ;

Ces trois items sont, pour moi, les trois piliers de l’interopérabilité des données dans une optique future du web de données. Aujourd’hui, il nous est difficile de sortir du carcan de la pensée documentaire comme dirait Got car les méthodes, techniques et outils qui sont enseignés correspondent encore au monde d’avant le web et nous n’avons pas encore d’outils de masse pour le monde d’après le web, mais ils arrivent et il nous faut faire œuvre de pédagogie. En attendant, nous chérissons nos méta-données. Il nous faut nous interroger sur l’encapsulation des méta-données descriptives dans les données (étape n°2 sur le chemin du web de données ?), mais aussi comment signaler à nos machines que la description d’une image est là au milieu des bits de l’image.

L’interopérabilité des données entre machines, via des méta-données, est la première marche, le premier pas vers le web de données. Si plusieurs techniques existent, l’OAI-PMH couplé aux descriptions en Dublin Core, représente le plus souvant le volet technique, informatique de l’interopérabilité des données aux yeux des professionnels de l’IST. La mise à plat des méta-données, dans l’OAI-PMH, a un avantage : il met à plat réellement les méta-données et nous oblige à repenser le rapport entre données, méta-données et le fait que, avec l’OAI-PMH, ce qui en sort, c’est du XML et pas une page web en HTML. On utilise le web pour faire autre chose que du HTML et des « pages » ; tout en se gardant la possibilité d’en faire, le web muterait-il ?. Nous faisons des flux de méta-données dans un langage pour des machines (aujourd’hui c’est du XML, mais demain…) : le web n’est pas que le territoire du HTML, il devient dynamique, il est un flux. Avec l’OAI-PMH, ce qui sort, c’est du flux XML (fluxml, cela fait vieux médicament) et pas une page web, pourtant il y a dedans de l’information mais nous échangeons juste de l’information sur la données, il nous faut aller plus loin. L’interopérabilité des données c’est presque un web des données.

Le mouvement est-il en marche ? Le réseau national des documentalistes du CNRS organise en octobre 2009 trois jours autour de l’OAI-PMH et j’espère son évolution future OAI-ORE. En 2010 aura lieu une seconde école thématique, très pratique, sur les sources numériques et l’interopérabilité des données. Ces sessions de formation continue sont bien évidement le reflet de ce qui se passe dans les IUT et à l’Université. Il me semble que ces éléments en sont des signes favorables.

Diffusion et édition de bases de données (1)

Bonjour,

La construction des savoirs passe par l’échange, la discussion, la critique et le partage. A l’heure ou l’on utilise la compétition entre les acteurs du monde des sciences pour démanteler les structures recherche, de plus en plus de données : primaires, secondaires ou/et tertiaires sont diffusées ou éditées en ligne sur le web. Dans un précédent billet je tentais, assez maladroitement, de dresser une mini chronologie des digital humanities « à la française » comme dirait Lou Burnard et ce depuis l’arrivée du vecteur web. Ce découpage n’est pas si simple car les acteurs des SHS ne sont pas tous dans une case bien précise. L’appropriation des méthodes et des bonnes pratiques de l’édition électronique sur support web est très inégale et la notion même « d’édition électronique » fait débat : beaucoup de chercheurs dissocient même l’action « d’éditer » du monde du web : un peu comme si le web ne méritait pas d’avoir ses éditeurs et l’idée même de qualité dans l’édition électronique semble parfois impossible à imaginer chez certains. Il faut donc faire œuvre de pédagogie et reprendre nos bâtons d’évangélisateurs pour diffuser les bonnes pratiques de ce domaine, savant mélange de ce qui se fait ailleurs et de ce que nous savons faire de façon collective.

Lors d’une journée d’information organisée par le Centre national de la recherche scientifique (CNRS) à Ivry-sur-Seine, Thierry Buquet, webmaster de l’Institut de recherche et d’histoire des textes (l’IRHT est un laboratoire du CNRS), réalisa un état de l’art de l’édition électronique dans les SHS en 2009 : il indiquait alors le fait que certains « chercheurs éditent des bases de données ». Dans le trop petit monde des humanités numériques, tout le monde comprend presque instantanément ce que cela veut dire et implique et surtout le fait que l’action d’éditer une BDD revient à fabriquer une « vue », un « regard » sur des méta-données ou des données, à un instant « T » : ce sont ces vues qui sont éditées. Les données ont pu être collectées il y a très longtemps, ou bien hier, et elles vont continuer à évoluer dans le temps. Il faudra les pérenniser, les archiver un jour… Ainsi la BDD est un réservoir dont l’une des vocations est de donner accès à de l’information au travers de méta-données (notices bibliographiques par exemple) ou directement de « données brutes » (des données spatiales, des données historiques, etc.) soit à un moment « T » via une édition électronique statique (PDF, etc.), soit via un accès « en flux » via une interface web de recherche par exemple ou via un flux d’information de type syndication (RSS, Atom, etc.), nous pouvons parler là d’édition dynamique des données. Dans ce dernier cas, les informations sont rendues accessibles juste après validation par le chercheurs ou du moins celui qui a l’autorité de valider des informations, mais le contenu de la BDD est vivant : de nouvelles données arrivent, certaines sont corrigées, d’autres supprimées (ce qui pose un problème pour les futurs historiens des sciences), etc. Il s’agit de bien faire la différence entre le fait de stocker de méta-données et des données et de mettre en place des moyens d’éditions de ces éléments. Éditer une BDD consiste donc à créer des vues, des regards, souvent multiples sur ensemble contenu dans un système d’information ou simplement dans un gestionnaire de bases de données.

Cependant, le flux n’est qu’une répétition de « vues à l’instant T » dont le cycle peut-être très court : quelques minutes, secondes, etc. Cette notion de diffusion des « informations en cours de traitement » (data in progress) est assez nouvelle pour les chercheurs des sciences humaines et sociales et elle peut être perçue de façon contradictoire par certains d’entre eux, plus habitués à communiquer seulement les résultats de la recherche qu’une combinaison de résultats étayés par les sources. Concevoir la BDD en SHS comme un réservoir évolutif de méta-données ou de données et en éditer des vues à l’instant « T », permet d’associer à un article les information sources ayant été utilisées dans celui-ci. Cela permet aussi de diffuser plus largement des données vers d’autres collègues, etc.

Mais il y a un revers à la médaille : l’abandon de BDD après la publication finale d’une recherche (c’est le cas dans les projets ANR qui sont plus court que les grands programmes des années 70-90). Avec le numérique et l’obsolescence des formats, logiciels, etc. cela provoque (provoquera) une perte de données. Il faut donc réfléchir en amont à la pérennisation/archivage et aux valorisations futures des BDD construites sur le modèle réservoir/vues. Une piste pour anticiper ces questions : application de certaines méthodes de travail très simples :

  • études, rapport d’étonnement, veille
  • gestion de projets (scénarii pour atteindre l »objectif final, planning, budget)
  • étapes de travail (objectifs à atteindre)
  • validation intermédiaire (audits internes)
  • évaluation des risques

associée à :

  • l’utilisation de standards internationaux normalisés pour l’encodage des données
  • l’utilisation de formats « ouverts » (dont les algorithmes sont ouverts, libres, et bien documentés, etc.)
  • la réalisation d’un effort pour intégrer des outils structures mutualisées.

permet assez facilement de construire et de diffuser des BDD dans le domaine des SHS. Cette réflexion et cette mise en œuvre de solutions, dans les équipes de recherche SHS, c’est le métier des ingénieurs, assistants ingénieurs en humanités numériques, mais c’est aussi celui des documentalistes et e-documentalistes, des bibliothécaires, des informaticiens.

Comprendre cette notion de réservoir d’information prenant la forme de méta-données ou de données (data in progress) et la possibilité de créer des vues multiples – qui elles peuvent être éditées et liées à un ouvrage numérique ou un article – est un point fondamental dans le déroulement d’un programme de recherche. L’édition d’une BDD ne peut se limiter à la mise en place d’un formulaire de recherche, à l’élaboration d’une maquette graphique pour en visualiser les résultats et en faire la promotion ; il faut concevoir les BDD comme des réservoirs capables de diffuser des flux de méta-données ou de données ayant de multiples formes, mais utilisant des formats connus, standards, et donnant accès à de l’information évolutive et validée par versions progressives. Cela nous amènerait-il plus facilement vers le web de données ?

Bien sur toutes les BDD n’ont pas cette vocation, certaines sont uniquement personnelles : le temps d’un article ou d’un ouvrage, mais force est de constater que le nombre de BDD personnelles (sous FileMaker Pro par exemple), qui ont tendance à évoluer vers une BDD « pour le web », est en progression constante depuis quelques années. C’est bien pour la construction des collectives des savoirs et cela fait avancer l’idée de l’importance de la pérennisation des données : mais attention à ne pas déraper dans sens inverse.

Les BDD ne sont pas des livres, mais de nos jours, elles permettent d’en faire. Les BDD ne sont pas des livres et donc elles ne se posent pas, comme un livre, sur l’étagère d’une bibliothèque.

Dans la partie 2, je présenterai la notion d’interopérabilité entre les BDD, que je détaillerai lors de l’université d’été du Centre pour l’édition scientifique ouverte (CLEO).

Stéphane.

Avoir le temps

Bonjour,

Le sp.Blog est-il mort ? Mon silence actuel est proportionnel au temps que je passe à faire mon vrai métier d’ingénieur d’études qui ressemble parfois, et de plus en plus, à un chemin de croix, doublé d’un slalom géant avec des tireurs d’élites postés dans les sapins. Accompagner la recherche est un métier passionnant, surtout quand vous travaillez dans la structuration d’un domaine tel que le mien et nouveau en France, les digital humanities. L’apport du numérique dans la recherche en SHS change une chose principale : le rapport au temps.  Il est dur de résister aux sirènes de la communication scientifique directe immédiate, aux projets de recherche « flash », etc. Donc, maintenir un projet structurant long, faire de l’appropriation de modèles, de techniques et d’outils, suivre des dizaines de projets quand l’équipe de recherche n’existe plus, bichonner un site ou un serveur web orphelin de ces pères fondateurs, etc. n’est pas choses très évidente. Bref, ce que le numérique change c’est le temps.

Vous l’aurez compris, j’ai donc moins de temps.

Stéphane.

digital humanities in Orleans

Bonjour,

Tout en préparant un billet (depuis noël, aie aie aie) sur un outil d’encapsulage des méta-données dans une image avec les possibilités offertes par le format XML couplé à du Dublin Core, j’ai eu l’honneur d’intervenir dans le séminaire de recherche sur l’édition électronique et les digital humanities nouvellement créé par Richard Walter à l’Institut de Recherche et d’Histoire des Textes du CNRS (Orléans). J’ai partagé la première séance de ce séminaire avec Michel Jacobson (DAF ; CNRS), responsable du Centre de Ressources pour la Description de l’Oral (Paris), un centre de ressources numériques du CNRS au même titre que celui que j’anime sur les données iconographiques. Un compte-rendu de ce séminaire a été écrit par Constance Krebs dans son blog amontour.net. Les digital humanities « à la française » comme dirait lou burnard avancent encore un peu, se structurent, réfléchissent et je pense dans le bon sens.
A bientôt pour parler XMP, Dublin Core et Perl.

Stéphane.

Digital humanities en France : le temps des pionniers

L’Université d’été du TGE ADONIS (Lyon, 3-5 septembre 2008) est la première réunion structurante de la communauté des digital humanities (digital humanities) en France. Elle est probablement le point de départ d’un formidable travail commun, à un niveau national, que l’ensemble des acteurs de ce domaine s’efforcent de construire avec le soutien de certains grands acteurs nationaux tel que le Centre national de la recherche scientifique mais également avec l’appui de collègues étrangers.

Pour la première fois, les producteurs de données numériques, les éditeurs électroniques, certaines institutions de recherche, des chercheurs, des ingénieurs et des centres de calcul et de stockage de données étaient réunis afin de réfléchir à l’amélioration des accès aux documents numériques primaires (sources) et secondaires (publications, revues, ouvrages numériques ; archives ouvertes d’articles).

Les digital humanities, discipline ancienne1 finalement, offrent aux chercheurs et aux enseignants des méthodes, des processus de travail, des briques technologiques et des outils, des infrastructures dédiées leurs permettant de structurer les matériaux afin de mieux les appréhender sur le plan scientifique. Actuellement, l’environnement de la recherche en SHS devient numérique : les données pour la recherche (primaires et secondaires) sont accessibles de façon numérique, certains documents sont nativement des originaux numériques (photographie, données d’IRM en anthropologie, etc.) ; les catalogues de bibliothèques et d’archives sont presque tous « en ligne » et il devient possible de commander des copies numériques de documents ; le bureau du chercheur/enseignant est numérique (missions, rapports, emails, cours, environnement numérique de travail dans les Universités) devient numérique. Faites la somme des services numériques que vous utilisez sur une semaine et vous verrez. La recherche en SHS, comme partout, utilise le numérique. Certains projets de recherche multi-équipes, géographiquement éclatés, ne pourraient pas fonctionner si des outils de partage de données, d’annotations croisées, de visio-conférences, n’existaient pas. Il est toujours possible de travailler seul, en bibliothèques ou en archives, avec du papier, pour le coté « vintage », presque une image d’épinal, mais l’ordinateur portable est aujourd’hui un classique. J’inclus dans le coté « vintage » l’utilisation du numérique pour reproduire le modèle de la bibliothèque : il y aurait danger à ce contenter de cet horizon car les digital humanities doivent aller plus loin et cela passe par le développant de services fonctionnels qui ne pourront être que collectifs à l’image des grandes infrastructures des sciences physiques. L’évolution des digital humanities se fait pas palier et l’école d’été du TGE ADONIS en est un selon moi. Ceci m’amène à réfléchir sur les différents « époques » de l’évolution de cette discipline, quels sont les ages des digital humanities en France ?

  • L’époque 1 correspond à la migration de la bibliothèque du réel au virtuel par la numérisation et par l’utilisation d’un vecteur : le web (mettre le catalogue en ligne ; mettre des données en ligne en liaison avec ce catalogue) ; c’est la gallicalisation des bibliothèques.
  • L’époque 2 débute avec l’XML-isation des corpus textuels et iconographiques : TEI ou XMP encapsulé dans de l’EAD ou du METS et exposé via de l’OAI-PMH. Cette époque est aussi celle du « CMS roi » et de la base de données utilisant des SGBDR open-source pour le stockage des données et méta-données : souvent pour palier les faiblesses du XML en la matière.
  • L’époque 3 est/sera celui des grilles : grilles de données (virtualisation) ; grille de calcul (dont le besoin en archéologie 3D est déjà une réalité) ; grilles logicielles et ESB (pour Enterprise Service Bus) tel que nous le réalisons dans le cadre du TGE ADONIS.
  • L’époque 4 sera (peut-être, sûrement même) celui du web des machines qui échangerons du sens (voir les travaux de Got).

La particularité des digital humanities est que tout le monde n’est pas obligé de changer « d’époque » en même temps, il y a des temps différents qui ont tendance à créer des sous-époques. Mais globalement, sur le plan collectif, je pense que nous sommes entre l’époque 2 et 3.

Stéphane.


1 Je renvois le lecteur à la présentation de Lou Burnard lors de l’école thématique du CNRS de Fréjus organisée par les centres des ressources numériques CN2SV, TELMA et CRDO disponible sur www.cn2sv.cnrs.fr/ecole-sources-num

digital humanities : le tournant et la eSHSgrid

L’école thématique sur la préservation et diffusion numériques des sources de la recherche en sciences humaines et sociales, organisée par les centres de ressources numériques du CNRS propose une formation aux humantiés numériques (digital humanities) en matière d’édition de sources pour la recherche scientifique en sciences humaines et sociales. Les 30 personnes qui sont ici suivent plusieurs ateliers sur l’informatisation des données manuscrites, iconographiques, orales.

La communauté des digitals humanities se structure, se parle, travaille. La mise en ligne de collections iconographies, la création d’entrepôts de données « images » et « visuelles » (y compris les modèles 3D) n’est plus envisagé sans la structuration de l’information : fichiers RAW, fichiers TIF, vignettes à la volée en JPEG, calculateurs de rendu, métadonnées XMP (ou encore en IPTC), EXIF, MIX, METS, DC. Belle avancée ! Les choses doivent encore se préciser mais le numérique est aujourd’hui au cœur d’un très grand nombre , c’est le « digital turn » ou tournant digital proposé par Paul Bertrand. Les sources numérisées vont laisser la place – de plus en plus – aux sources numériques structurées, c’est aujourd’hui une quasi-réalité et presque du passé et le XML, les normes, l’open-source sont au coeur du digital turn. Un e-chercheur sera l’utilisateur de ces corpus hybrides structurés, virtualisés, accessibles à tous les chercheurs au travers, tel les données du LHC, d’une eSHSgrid et constitué, non pas pour une utilisation individuelle, mais génératrice de publications multiples, papiers, mais aussi de plus en plus elles-mêmes électroniques. Cette eSHSgrid garantie le socle d’accessibilité aux données.

Le wiki de l’Ecole est actualisé en permanance par les participants.

Stéphane.

Dublin Core 2008 à Berlin

Le DC2008, organisé par le Competence Centre for Interoperable Metadata (KIM), le Max Planck Digital Library (MPDL), la Göttingen State and University Library (SUB), la German National Library (DNB), Humboldt Universität zu Berlin (HU Berlin) et le Dublin Core Metadata Initiative avec le concours de Wikimedia Deutschland, a permis de faire un panorama complet des utilisations possibles des deux jeux principaux de méta-données Dublin Core (simple et qualifié). Plusieurs projets, issus principalement des communautés scientifiques, de celles des musées et du monde des bibliothèques (nationales ou universitaires) ont été présentés sous la forme de séances plénières, de workshops et de posters.

Après première journée dédiée à des d’ateliers d’introduction allant de l’histoire du DC, à la présentation de la mise en pratique du DC, les sessions plénières des mardi, mercredi, et jeudi ont permis de voir que le DC est aujourd’hui au coeur des outils d’inter-opérabilités développés par les producteurs de données que sont les grandes bibliothèques et le monde universitaire principalement. A plusieurs reprise, le DC a été mentionné comme étant le ciment permettant de mettre en oeuvre les échanges de méta-données, la communication de ces dernières et ceci à très grande échelle : pour des réservoirs ayant plusieurs centaines de milliers d’enregistrements. Le DC qualifié semble de plus en plus concurrencer le MARC par exemple : il est presque devenu natif dans les applications de gestion des bibliothèques.

Le DC est également au centre des problématiques du web sémantique. Plusieurs présentations sur ce sujet (principalement venant des USA) ont eu lieu et ont démontré que le web sémantique doit, pour ce développer, s’appuyer sur des technologies et méthode tel que le RDF associé au DC. Dans la construction des outils – et méthodes – du web sémantique le DC occupe une place importante car il agit comme un point de référence, une brique fondamentale de ce très grand chantier. Cependant, peu d’applications fonctionnelles ont été présentées et certains projets sont encore très expérimentaux.

On peut noter une forte progression de l’utilisation du DC dans les applications du web social et dans les applications web professionnelles. Le DC est de plus en plus couplé aux systèmes utilisant le RDF, le RDFa et dans sa sous-branche : le FOAF, etc.. Un doute subsiste cependant quant au retour sur investissement et sur la qualité en matière d’indexation collaborative grand public de corpus iconographique (ex. du SFMOMA : www.sfmoma.org).

Le développement du DC dans les années qui viennent suivra l’évolution des méta-langages que sont le RDF et toutes ces déclinaisons. Le vecteur OAI-PMH est aussi fortement mentionné par les utilisateur du DC.

Le DC s’impose dans les grands catalogues internationaux et dans les protocoles d’échanges entre bibliothèques et besoins universitaires ou de recherche.

Stéphane.

PS : A noter le peu de présence des Français, surtout venant des grandes bibliothèques, aucune bibliothèque universitaire représentée, les acteurs classiques de l’IST n’y était pas non plus, heureusement l’ABES était là et bien sur le CNRS et le TGE ADONIS que je représentais indirectement.

Interdisciplinarité et humanités numériques

Bonjour,

Quelques réflexions après l’université d’été du très grand équipement ADONIS (Lyon, 3-4 sept. 2008), qui se met en place dans le monde de la recherche en sciences humaines et sociales et qui structure les humanités numériques (digital humanities).

La mise à disposition, sur le web, d’un corpus de documents numériques primaires (textes, images, données brutes issues de capteurs, etc.) pour la recherche en sciences humaines et sociales entraine la création d’une chaine de travail associant plusieurs métiers : le chercheurs, qui exprime un besoin et valide les informations sur le plan scientifique, le documentaliste qui prépare l’information et qui la rend inter-opérable à l’aide de méta-données, l’informaticien qui réalise des systèmes d’information capables de diffuser ces données et leurs méta-données, l’e-archiviste qui met en place une conservation des données numérique à long terme. Je me place ici dans le monde des données numériques dites « brutes » : donc dans la phase juste pré-éditoriale. Ce schéma est bien évidement théorique : il est rare, de nos jours, d’avoir tous ces métiers réunis autour d’un seul projet de recherche. Au niveau national ou d’un organisme cela pourrait être envisagé, mais, à ce niveau, un autre frein apparait : la difficulté du « travailler ensemble » entre partenaires venant de plusieurs établissements ou administrations. Mais les choses évolues très vite là aussi. Sans vouloir plaquer les mécanismes des méthodes industrielles sur d’autres domaines de la recherche scientifique, il est intéressant de noter tout de même les termes : « d’équipe », « diagramme de Gantt », « projet collaboratif », « colloque virtuel en ligne », commencent à se démocratiser chez les chercheurs et enseignants dans les sciences humaines et sociales.

Je pense que la notion de « chaine de compétences » présentée ci-dessus est la plus importante dans la réussite d’un projet de recherche collectif éprouvant le besoin de mettre en ligne des données afin de fédérer d’autres chercheurs ; qu’ils soient professionnels, étudiants, voir même des amateurs. Elle est souvent conditionnée par des locaux communs et qui font souvent défaut dans les sciences humaines et sociales (SHS). Une chaine de compétences doit répondre à une unité géographique, du moins au début, après quelques années, et une fois les normes bien appropriées par les acteurs, il est possible de virtualiser la chaine. La mise en place d’un projet de mise en ligne d’un corpus ou de diffusion, sur le web, d’une collection de documents numérisées entraine des phases de recherche, de production, de rendus et de valorisation des données : un processus doit répondre à un ou plusieurs cahiers des charges. A ce stade, il est intéressant d’aller chercher des conseils et des idées chez des professionnels d’autres domaines : dans les grands centres de calcul et de stockage. Là, les choses changent, les humanités numériques (digital humanities) prennent une nouvelle dimension. La chaine des compétences intègre de nouveaux domaines : les hautes disponibilités, l’OAIS, etc. Les humanités numériques sont au service de la recherche en SHS et elles font de l’interdisciplinarité une réalité et au sens large du terme.

Stéphane.

science et correspondances : un blog pour les réseaux de savants

Quand les chercheurs utilisent les blogs cela peut donner ceci : Le Projet Correspondances.

Le « Projet Correspondances » est un projet de recherche international porté par mon laboratoire qui :

« vise à l’étude de correspondances entre savants européens des 17ème-20ème siècles, en particulier à travers l’utilisation d’éditions électroniques. Qu’apporte une édition électronique par rapport à une édition papier ? Quelles sont les difficultés et les contraintes d’une version électronique ? Quels outils mettre en oeuvre ? Quelles nouvelles recherches peuvent être menées ?

Un groupe d’historiens et informaticiens, français et étrangers, travaillant à l’édition de correspondances (D’Alembert, Ampère, les Bernouilli, Buffon, Euler, Lavoisier, Poincaré, Valisneri,… ) se réunit régulièrement au Centre de Recherche en Histoire des Sciences et des Techniques (UMR CNRS 8560) pour travailler sur ces questions. Ce groupe s’est donné comme premier objectif de réfléchir à l’élaboration d’outils les plus communs possibles pour l’édition électronique : constitution des bases de données, modèle commun pour rendre les différentes correspondances visibles sur internet via l’OAI (Open Archive Initiative, voir www.openarchives.org), outils d’édition, etc. »

Je trouve très intéressant ce type de site car il permet – à peu de frais et très rapidement – de présenter et de « souder » une équipe inter-structures autour du contenu d’un projet. Certains diront qu’il est difficile de faire écrire les chercheurs directement dans un blog… Ceci est vrai si le format blog est présenté comme un substitut à une édition électronique ou, pire, papier. Or là, point de concurrence entre publication et blog, nous avons un support rapide (notez que je parle par de média) permettant à un groupe d’accrocher réflexions, analyses, notes de réunions, référentiels, guides de bonnes pratiques, etc. Nous sommes loin de l’image des chercheurs travaillant dans leurs coins, ne diffusant rien de leurs travaux, etc.

Stéphane.

Master Archives et Images

Bonsoir,

Au détour d’un chemin numérique, guidé par del.icio.us, je suis tombé sur cette formation : le Master Archives et Images de l’université de Toulouse II et sur le site des Anciens étudiants de ce master, regroupé en une association : l’AICI. Cette association développe un site web, très intéressant, qui utilise les flux RSS de del.icio.us dans SPIP : voici une belle illustration du web 2.0 pour de la veille.

Stéphane.

La norme OpenURL et la technologie Context Objects in Span (COinS)

Bonjour,

La technologie Context Objects in Span (COinS) permet d’ajouter dans une page web (billets de blog, résultats d’une recherche documentaire, liste de références bibliographiques) des méta-informations encodées selon la norme OpenURL. Cette technologie est déjà là depuis un petit moment, le figoblog en parlait déjà en décembre 2006, mais sa démocratisation prendra du temps comme toujours : j’y consacre à mon tour un billet.

Cela fonctionne par l’ajout d’une balise <span> contenant une classe et un titre contenant des informations descriptives du contenu publié en ligne : des méta-données. Il est possible de préparer cette balise span un peu spéciale à l’aide d’outils en ligne à base de formulaires, mais il est plus judicieux, pour les blogs, d’utiliser des modules qui font cela automatiquement : c’est le cas pour le moteur WordPress. Mon blog en est d’ailleurs maintenant équipé. Cela permet, par exemple, pour ceux qui utilisent le gestionnaire de références bibliographiques Zotero de capturer les méta-données (titre, dates, auteurs, etc.) d’un billet de blog ou d’une page web. De nombreux catalogues de références bibliographique utilisent cela : le Sudoc, Amazon, ou encore les blogs du portail Hypotheses.org.

La définition du système COinS est claire :

« The goal is to embed citation metadata into html in such a way that processing agents can discover, process and make use of the metadata. Since an important use of this metadata will be to allow processing agents to make OpenURL hyperlinks for users in libraries (latent OpenURL), the method must allow the metadata to be placed any where in HTML that a link might appear. In the absence of some metadata-aware agent, the embedded metadata must be invisible to the user and innocuous with respect to HTML markup. To meet these requirements, the span element was selected. The NISO OpenURL ContextObject is selected as the specific metadata package. The resulting specification is named « ContextObject in SPAN » or COinS for short. » (source : http://ocoins.info).

Une fois encore, un peu comme avec l’IPTC Core pour les images, il s’agit d’embarquer (embed) des méta-données au sein même de la page web qui contient l’information dans un format ouvert et surtout contextuel : OpenURL.

Le span ressemble à cela : [span class= »Z3988″ title= »ctx_ver=Z39.88-2004&
amp;rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Adc&r
fr_id=info%3Asid%2Focoins.info%3Agenerator&r
ft.title=La+d%C3%A9mocratisation+du+XML+documentaire&r
ft.aulast=POUYLLAU&rft.aufirst=St%C3%A9phane&r
ft.subject=IT&rft.source=sp.Blog&rft.date=2008-05-18&r
ft.type=blogPost&rft.format=text&r
ft.identifier=http://blog.stephanepouyllau.org/la-democratisation-du-xml-documentaire&rf
t.language=French »]

A voir comme cela c’est un peu complexe, mais il s’agit bien de méta-données, proche du DublinCore d’ailleurs, encapsulées dans une balise <span>.

COinS est une technologie qui permet une utilisation simple, pour l’internaute, des e-références : les méta-données. COinS, couplé avec un outil tel que Zotero, peut rendre plus simple la collecte de références bibliographiques disponibles sur le web. Mieux, utilisée dans les blogs, elle les transforme en réservoirs d’informations…

Bon dimanche,

Stéphane.

Photo sous licence CC par jen-the-librarian. Continuer la lecture de « La norme OpenURL et la technologie Context Objects in Span (COinS) »

La démocratisation du XML documentaire

PS postconférence : la présentation est disponible en ligne, au format PDF (8Mo), depuis ce lien : A l’heure de la démocratisation du XML documentaire

Bonsoir,

Aller, de l’autopromo en ce dimanche soir… J’animerai, le 27 mai 2008, à la Maison des Suds (domaine universitaire de Bordeaux, 12 esplanade des Antilles, Pessac) et à l’invitation de l’ADBS Aquitaine un séminaire sur la démocratisation du XML documentaire. Je présenterai aussi la façon de concevoir des applications composites (ou mashup) utilisant le XML au travers des réalisations du Centre National pour la Numérisation de Sources Visuelles du CNRS (CN2SV) et du Centre de Recherche en Histoire des Sciences et des Techniques dont j’ai le plaisir d’être le responsable technologique. C’est la conception d’applications en « briques ». Nous sommes tous des « chefs de chantier » et des maçons.

Le langage XML a 10 ans. Il s’est imposé dans de nombreuses applications et méthodes permettant le traitement de l’information scientifique primaire (TEI, XML ALTO, MathML, X3D, GeoXML, KML etc.) et secondaire (MarcXML, BiblioML, EAD, EAC, XMP, etc.).

A la démocratisation du XML correspond l’émergence, dans la recherche en sciences humaines et sociales, d’équipes associant documentation, informatique et informatisation des données primaires, archivistique et edition électronique au service de projets de recherche. Un grand nombre de ces équipes font elles-même de la recherche sur un domaine encore nouveau en France: les humanités numériques (ou digital humanities) et créent des réseaux d’échanges d’informations, méthodes, briques logicielles, etc. (ex. : Mutec ; les 5 centres nationaux de ressources numériques ; la plateforme 3D ArchéoVision ; etc. ). L’utilisation du XML permet de partager de l’information (RSS, Atom) ; déployer des solutions hybrides à l’aide de petits connecteurs utilisant XML (GeoData, utilisant GéoXML, pour le CN2SV qui est capable de « dialoguer » avec l’API de Google Maps et donc vers du KML) mais surtout, XML est un moyen de ce comprendre, de s’entendre entre documentalistes, informaticiens, archivistes, chercheurs. Ceci est plus que nécessaire à l’heure de la recherche sur projets où la question de la pérennité des données numériques sera l’un des critères d’évaluation et où elle est déjà fondamentale pour tous projets à dimension internationale (voir, par exemple, le protocole OAI-PMH qui utilise XML).

Le CN2SV (opérateur du TGE ADONIS), associé à la plateforme technologique du Centre de Recherche en Histoire des Sciences et des Techniques, forme, depuis 2002, l’une de ces équipes. Spécialisé dans l’informatisation des données en histoire des sciences et des techniques et en re-documentarisation de données factuelles à caractère iconographiques, le CN2SV et le CRHST ont développé de nombreuses applications qui utilisent du XML normé (EAD, MathML, etc.).

Ainsi, ce séminaire présentera, au travers de l’expérience et des nombreuses réalisations du CRHST et du CN2SV : les méthodes et normes XML qui peuvent être utilisées et associées pour créer des systèmes d’information scientifiques et documentaires, des exemples d’applications web composites et des outils permettant l’interopérabilité des données.

XML est partout et il est de plus en plus transparent (caché dans le format *.odt d’Open Office, ou dans nos flux RSS, etc.). XML peut être un ciment, un langage, un vecteur. Rendez-vous le 27 à Bordeaux…

Bonne soirée.

Stéphane

Faire un choix de CMS

Bonjour,

De nombreux projets de recherche ont besoin de créer des sites web afin de communiquer et de grouper virtuellement la communauté qui l’anime. De nos jours les systèmes de gestion de contenu (ou CMS) open source et gratuit se sont imposés, mais de SPIP à Lodel en passant par Typo3, par facile de faire un choix. Maintenant il y a cms-fr.net qui permet de tester des CMS ayant tous des traduction française :

« Le cms est-il francisé, bénéficie t’il d’un support francophile à défaut d’être francophone. Bref, quels sont les cms pouvant être installer, administrer, utiliser, customiser, configurer par des utilisateurs ne parlant que la langue de Molière… et ils sont nombreux !. » Nous informe le site. A visiter. Un bémol, l’inscription obligatoire pour avoir accès au serveur de démonstration.

Stéphane.

Equipes Numériques : nouveaux métiers, nouvelles structures

Ce billet s’appuie sur le texte de Pierre Mounier disponible en ligne sur l’Unité Numérique de l’ENS LSH.

 

La diffusion de sources historiques sur le web est en augmentation et la demande est de plus en plus forte. Les étudiants, au niveau master par exemple, seront dans quelques années, les principaux utilisateurs des sources historiques numérisées et disponibles en ligne (web et entrepôts OAI). Le signalement de ces sources s’améliore de jours en jours même si de nombreux sites ou entrepôts de données restent « isolés » (notion curieuse pour le web je vous l’accorde). Après l’époque des sites web offrant des sources numérisées, nous sommes dans celle des entrepôts, et des méta-entrepôts. Aujourd’hui, tout le monde fait de la rétro-numérisation de sources : bibliothèques, services d’archives, laboratoires de recherche, projets de recherche. Même un chercheur isolé demande de plus en plus une copie numérisée d’une source et si possible envoyée à son adresse électronique. Depuis quelques années, des présentations PowerPoint, « augmentées » de sources numériques, fleurissent dans les TD des universités et les plateformes d’enseignement à distance. Dans le monde de la recherche scientifique en sciences humaines et sociales, c’est aujourd’hui une évidence, les sources numérisées sont partout.

Depuis quelques années, la demande devient également importante. Aujourd’hui, les chercheurs publient des articles dans des revues électroniques, déposent dans les archives ouvertes et associent, ou le feront bientôt, à leurs articles des fac-similés numériques (manuscrits, collections de photos, etc.). Face à cette demande, des méta-entrepôts sont en construction. Ils sont souvent la partie immergé de méta-portails disciplinaires. La tendance actuelle et à l’interconnexion de ces méta-entrepôts à l’aide protocoles fondés sur : des normes communes, des briques technologiques communicantes et utilisant les canaux naturels du web (http, etc.).

Dans les sciences humaines, ces méta-entrepôts sont créés la plupart du temps par les équipes IT regroupant des ingénieurs, des techniciens spécialisés en information scientifique et techniques (IST), en documentation et archivistique et des chercheurs (voir le billet de Pierre Mouier sur l’Unité Numérique). En lisant ce billet, je me suis aperçu que mon équipe IT – le CRHST et son centre de ressources numériques (le CN2SV) – avait un rôle assez semblable finalement et je me suis assez bien reconnu dans ce paragraphe de Pierre Mounier :

« Pour dire les choses brutalement, l’Unité Numérique est une structure nouvelle qui répond à une situation nouvelle. On peut penser qu’elle est une manière particulière, comme d’autres le font différemment ailleurs, d’inventer un nouveau métier, celui d’éditeur numérique. Elle ne pourrait faire ni l’un ni l’autre (répondre à la situation et inventer un métier) si son centre de gravité se déplaçait et la faisait tomber de l’un ou l’autre des côtés (dans une bibliothèque, un service informatique ou une maison d’édition traditionnelle). »

Un nouveau métier ? Oui, j’en suis persuadé depuis quelques temps, c’est bien un nouveau métier avec ces formations et ces réseaux. A nouveau métier, nouvelles structures ? Bien évidement. Elles font de l’informatisation des données, de l’ingénierie documentaire, de la re-documentarisation de sources, de l’édition électronique et elles inventent et adaptent des outils informatiques pour des projets de recherche. Elles sont le lien, grâce à la veille technologique, entre les contenus des grandes bibliothèques numériques et les besoins des chercheurs. Je rejoints également Pierre Mounier sur l’idée suivante :

« … le principe du respect de l’autonomie scientifique et éditoriale des équipes de recherche avec lesquelles le travail est fait. Et l’application de ce principe est un peu une quête du Graal car il ne se résume évidemment pas à laisser les chercheurs tout faire par eux-mêmes. Il s’agit bien plutôt de faire en sorte que les choix qui sont faits et les actions techniques qui sont déléguées à l’Unité Numérique ne se traduisent pas par une dépossession et finalement une trahison des projets de recherche. Il faut donc pour chaque projet, en fonction du type de réalisation et de demande, mais en fonction aussi des particularités propres à l’équipe qui la porte, imaginer un dispositif qui mixe un choix d’outils appropriés, une bonne répartition des tâches et des niveaux de décision et une dose variable de formation des équipes de recherche aux technologies numériques. A ma connaissance, mais je peux me tromper, la composition du cocktail n’est pas totalement standardisable et ne peut faire l’objet de procédures automatiques. »

Pour ma part, et depuis que je travaille dans ce domaine du CNRS, je pense que l’accompagnement des chercheurs dans leurs projets doit s’appuyer sur :

  1. Un respect éditorial du projet porté par l’équipe de recherche (ER)

  2. Une implication de l’ER, par l’initiation, l’information et la démonstration, dans les problématiques propres à l’équipe IT. Ainsi elle comprend mieux les contraintes (techniques, financières, etc.) et les choix réalisés.

  3. Un respect des formats ouverts, tant sur le plan des logiciels que sur les formats de stockages des données

  4. L’établissement de phases de production qui prennent en compte la pérennité des données et des réalisations (en collaboration avec d’autres organismes pour les productions web par exemple)

Ce sont les quatre principales règles que nous respectons au CRHST et dans le cadre du CN2SV, elles sont proches de celles de l’Unité de Pierre Mounier. Je pense qu’elles doivent être utilisées ailleurs, dans d’autres équipes adossées à d’autres institutions, et j’en suis heureux. Ce nouveau métier et ces structures nouvelles au service des sources numérique en ligne, ouvrent sans aucun doute, de nouveaux horizons pour la recherche scientifique.

Alors, 2008, année zéro ?

Frises chronologiques sur le web : utilisation de Timeline pour faire un mashup AJAX avec PHP et MySQL

Bonsoir,

Je profite d’un week-end loin de Paris et d’un long voyage en train pour décrire (mais avec beaucoup de retard) un petit mashup que j’ai réalisé pour le site @.ampère et l’histoire de l’électricité. L’idée de départ était de développer des chronologies avec l’outil Timeline mis au point par le MIT et que pas mal de développeurs connaissent et utilisent. Timeline permet de créer des frises chronologiques à l’image de celles encore présentes dans les livres scolaires d’histoire (nous avons tous rêvés devant ces frises en couleurs présentant l’histoire de l’Homme par exemple). C’est outil utilise des éléments en javascript et du XML : c’est donc un système basé sur AJAX. Dans le site @.ampère nous voulions faire une frise avec des éléments historiques différents le tout devant être synchronisé :

  • une sous-frise sur les grands personnages de l’histoire de l’électricité
  • une sous-frise sur les grandes découvertes de ce même domaine

Dans Timeline, les évènements (events) sont stockés dans un fichier XML très simple. Dans le but d’inclure Timeline dans le système d’information (SI) du site, nous avons utilisé deux tables MySQL pour mettre les données brutes (date, contenu de l’évènement, etc.). Un script PHP utilisant DOM réalise alors une présentation XML de ces données : en sortie, nous avons deux fichiers XML, un pour chaque sous-frise, qui sont normés suivant le schéma des fichier nécessaire au fonctionnement de Timeline. Nos deux tables MySQL sont indépendantes du système AJAX de Timeline : c’est PHP/DOM qui formate les données en XML suivant la grammaire Timeline. Nous avons d’ailleurs un autre programme PHP qui présente ces même données sous la forme d’une page web classique. Le schéma suivant en résume le modèle :

Modèle informatique de frise chronologique (site www.ampere.cnrs.fr)

Les deux fichiers XML sont stockés dans un répertoire du serveur et chargé dans l’application AJAX qui gère Timeline. Le XML resemble à ceci :

<?xml version="1.0" encoding="iso-8859-1"?><data>

<event start="Jan 00 1544 00:00:00 GMT" end="Jan 00 1603 00:00:00 GMT" 
image="AMP_1015.jpg" isDuration="true" title="William GILBERT">(1544-1603)</event><event start="Jan 00 1666 00:00:00 GMT" end="Jan 00 1736 00:00:00 GMT" 
isDuration="true" title="Stephen GRAY">(1666-1736)</event> ...
</data>

Pour le tout fonctionne, il nous a fallu ajouter un petit programme php de vérification de la forme des dates/heures histoire de ne pas avoir de bug dans l’une des deux sous-frises. Pour terminer nous avons ajouté, dans le fichier javascript de la frise (main.js) qui pilote l’affichage écran, les instructions suivantes :

bandInfos[1].eventPainter.setLayout(bandInfos[1].eventPainter.getLayout());

tl = Timeline.create(document.getElementById("my-timeline"), bandInfos, Timeline.HORIZONTAL);

Timeline.loadXML("kronos1.xml", function(xml, url) { eventSourceA.loadXML(xml, url); });

Timeline.loadXML("kronos2.xml", function(xml, url) { eventSourceB.loadXML(xml, url); });

Nous avons une « bandInfos » dans laquelle nous « chargeons » les deux fichier XML : kronos1.xml et kronos2.xml. Ce chargement est réalisé au sein des deux eventSource (A et B). Ce fichier, main.js, qui est un fichier javascript pur est chargé dans une page HTML (ou PHP dans notre cas) par l’utilisation d’une simple balise <script> dans l’entête. La frise « double » est ensuite affiché dans le code HTML via un « id » de balise <div> :

<div id="my-timeline" style="height:800px; width:100%;"></div>

Le tour est joué, nous avons une belle frise chronologique présentant de façon synoptique ces deux types d’évènements. Voici le résultat :

FriseChronoAmpere

Bonne fin de week-end,

Stéphane.

PS : Merci à Marie-Hélène Wronecki pour le travail sur la base de données MySQL.

Trancodage de dates informatiques

Bonsoir,

Un petit script php très simple pour convertir une date du type AAAA-MM-JJ HH:MM:SS en date normée suivant RFC 822 utilisée dans les flux RSS ou dans le monde OAI-PMH :

$datedepart = '2007-09-10 00:00:00'; // on entre la date (qui peut venir d'un champ de type datetime de SGBDR : MySQL, PostgreSQL, etc.)
list($date, $hours) = split(' ', $datedepart);
list($year,$month,$day) = split('-',$date);
list($hour,$min,$sec) = split(':',$hours);

$date = date(r,mktime($hour, $min, $sec, $month, $day, $year));
print "$date";

Stéphane.

Source : http://www.phpfreaks.com/quickcode/from-MySQL-datetime-to-RFC-822-for-RSS/597.php

Décrire un objet numérique ou numérisé : utilisation du Dublin Core

Bonjour,
La semaine passée un chercheur me demande : « J’entends parler de métadonnées en Dublin Core, qu’est-ce ? ». Après explication, je me suis aperçu que faire l’association entre les champs d’une base de donnée – décrivant des objets numériques ou numérisés – et la notion de métadonnées XML n’était pas forcement naturelle. Plus qu’une différence de vocabulaire, il s’agit d’un terrain inconnu avec son lot de mystères et de rumeurs inquiétantes. La notion de champs de description, dans une base de données comportant une ou plusieurs tables, est assez connue aujourd’hui ; mais l’interaction entre ces champs et des métadonnées est assez nouvelle pour le grand public. L’information stockée dans un champ d’une table de données (par exemple le nom de l’auteur du document, ou sa date) peut être utilisée de différente façon. C’est là l’une des clés de la compréhension des métadonnées. Cette information peut être affichée directement sur un site web via l’intermédiaire d’un programme informatique (écrit en PHP ou Perl par exemple). Mais elle peut également servir à renseigner la valeur d’une balise HTML (dans une entête de fichier HTML), ou la valeur d’une balise XML (dans un fichier XML servant à échanger ou préserver donc de l’information de façon indépendante via à vis des logiciels courants).

Prenons l’exemple de deux équipes de recherche qui souhaitent échanger des informations. Chacune des équipes a créé une base de données qui a, pour des raisons historiques et pratiques, des champs différents : c’est à dire que les modélisations sont différentes car les besoins ont été listés sans concertation au départ. L’un des moyens pour échanger des informations entre ces deux bases de données est d’avoir un format commun aux deux équipes : par exemple s’échanger des fichiers textes (ou XML) en ayant structuré l’information de telle façon que les deux équipes seront capables de ranger ces informations dans les bonnes « cases » (champs) de leurs bases de données respectives.
Il existe pour cela des normes de structuration de l’information (l’on dit aussi grammaire ou syntaxe). L’une des plus utile dans le monde de la recherche est la norme Dublin Core (ou DC). Le DC est une norme simple de description bibliographique créée pour les documents numériques. Le DC définit un ensemble d’éléments (l’on dira métadonnées ou « données de données ») qui sont au nombre de 15 pour le DC dit « non qualifié » (norme ISO 15836 de février 2003) :

  • -le titre,
  • -le créateur,
  • -l’éditeur,
  • -le sujet,
  • -la description (sorte de résumé, qui peut se rapprocher de « l’Analyse » pour les médiévistes),
  • -la source,
  • -la langue,
  • -la relation (relation ou lien avec une autre ressource DC),
  • -la couverture (l’aspect spatio-temporelle de la ressource : géographies, chronologie),
  • -la date,
  • -le type (images, sons, textes),
  • -le format (le format de la ressource : txt ; wmv ; pdf ; ogg ; php ; mov ; rtf ; ops ; etc),
  • -l’identificateur (DOI ; URL ; id OAI-PMH),
  • -le contributeur (personne physique ou moral ayant participée à l’élaboration de la ressource),
  • -les droits.

Ainsi, il est facilement possible de configurer une base de données MySQL, PostgreSQL, MS-Access ou même OpenOffice suivant ces « champs » et de créer un format de sortie XML reprennant les 15 élements DC. C’est le coeur, par exemple, des enregistrements dans un entrepôt OAI-PMH :

<record>
   <header>
    <identifier>oai:www.crhst.cnrs.fr:hstl-000101</identifier>
    <datestamp>2007-01-15T15:04:36Z</datestamp>
    <setSpec>manuscript</setSpec>
   </header>
   <metadata>
     <oai_dc:dc
       xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/"
       xmlns:dc="http://purl.org/dc/elements/1.1/"
       xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
       xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/
       http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
      <dc:title>Autobiographie d'Ampère.</dc:title>
      <dc:creator>André-Marie AMPERE</dc:creator>
      <dc:subject>history</dc:subject>
      <dc:description>Cahier manuscrit de 16 feuillets dont les 8 premiers feuillets sont autographes...</dc:description>
      <dc:publisher>Christine BLONDEL</dc:publisher>
      <dc:contributor>CNRS, CRHST</dc:contributor>
      <dc:contributor>HSTL : Delphine USAL</dc:contributor>
      <dc:date>1824-00-00</dc:date>
      <dc:type>studies materials</dc:type>
      <dc:type>text</dc:type>
      <dc:format>xhtml from databases</dc:format>
      <dc:identifier>http://www.ampere.cnrs.fr/ice/ice_book_detail-fr-text-ampere-ampere_text-8-3.html</dc:identifier>
      <dc:source>http://www.ampere.cnrs.fr/ice/ice_book_detail-fr-text-ampere-ampere_text-8-3.html</dc:source>
      <dc:language>french</dc:language>
      <dc:coverage>ampère</dc:coverage>
      <dc:coverage>autobiographie</dc:coverage>
      <dc:coverage>electricity</dc:coverage>
      <dc:coverage>AMPERE</dc:coverage>
      <dc:coverage>XIXe</dc:coverage>
      <dc:coverage>France</dc:coverage>
      <dc:rights>public domain</dc:rights>
     </oai_dc:dc>
   </metadata>
  </record>

Nous voyons bien dans ce cas, que les balises XML utilisant le DC sont au coeur de la notice (dc:title par exemple). La notice XML, écrite en DC, est encapsulée dans d’autres balise XML propres à l’OAI-PMH. Cette notice XML DC est en fait générée par un script PHP (que nous pouvons nommer application ou programme) à partir d’une base de données MySQL.

Bonne journée,

Stéphane.

Extraits de textes avec Google recherche de livres

Bonjour,

Google a ajouté une fonctionnalité intéressante dans son projet « Recherche de Livres ». Il est possible de faire des extraits dans les textes (une phrase, un paragraphe) et de les diffuser (partager dans la terminologie web 2.0) sur son blog par exemple ou sur une page web, voir un courriel au format html. Voici, par exemple, un extrait du Recueil d’observation électro-dynamique d’Ampère :

Cela permet de présenter un extrait ou une courte citation dans une publication par exemple. En plus, en cliquant dessus nous avons la possibilité de basculer dans Google et de voir l’ouvrage. Dans ICEberg nous avions fait cela avec ICEberg+, mais uniquement pour les textes. Si un système similaire existe dans le monde de l’open-source, je suis preneur ! j’imagine qu’il s’agit d’un géoref de zone soit de l’encodage image via du javascript ou de l’ajax.

Stéphane.