flux – Archives du blog de Stéphane Pouyllau

Interopérabilité autour de l’édition électronique de la correspondance d’Eugène Delacroix

Le Centre André Chastel (Université de Paris-Sorbonne, Paris IV, CNRS, Ministère de la Culture et de la Communication) propose une édition électronique de la correspondance d’Eugène Delacroix (1798-1863). Accessible sur le site www.correspondance-delacroix.fr, le site est très clair et fonctionnel : il y a un moteur de recherche, un index des noms de personnes, des liens offrent la possibilité de naviguer dans le corpus. La visualisation des lettres est aussi très intéressante : fac-similés (flash, mais visualisation de l’image jpg sous ipad par exemple), transcriptions, notices biographiques, annotations, etc. Le projet semble très bien mené et rentre dans le mouvement des éditions électroniques de correspondances (littéraires, scientifiques, etc.). Ce projet a été financé par l’Agence nationale de la recherche en 2006 (appel Corpus).

On peut cependant regretter d’avoir à faire à un site « clos ».

Je m’explique : les éditeurs ont conçu un site très riche et bien pensé, mais ils n’ont pas mis en place de politique de flux de diffusion (RSS, Atom) permettant par exemple de suivre, depuis un outil de veille, les mises à jour des annotations afin de suivre les débats des spécialistes. C’est dommage car le site se veut vivant : « …grâce à la mise en ligne, [les transcriptions et annotations] seront toujours susceptibles de modifications et d’ajouts » est-il précisé dans la présentation du projet. Quel est le système de transcriptions qui a été utilisé ? Text Encoding Initiative ? Nous ne le savons pas : c’est dommage car cela aurait marqué un peu la préoccupation des éditeurs en matière d’archivage des transcriptions (même si TEI n’est pas parfait, c’est déjà au moins du XML). Autre manque : alors qu’un effort a été visiblement fait pour rendre citable les url des lettres (indépendance des liens vis à vis du système de publication), il n’est pas fait état d’un hypothétique entrepôt OAI-PMH permettant de moissonner les métadonnées des lettres de Delacroix afin de les diffuser dans les portail tel OAIster, Gallica ou ISIDORE, comme c’est le cas pour les correspondances d’André-Marie Ampère ou encore Buffon. Est-ce une volonté des éditeurs ? un oubli par manque d’information (OAI-PMH reste tout de même assez mal connu) ? Je ne sais pas. Mais, je pense qu’il est toujours dommage de ne pas disséminer les contenus d’une édition électronique d’une œuvre scientifique, littéraire ou artistique vers des portails thématiques ou disciplinaires afin de communiquer plus largement les sources de la recherche et de les rapprocher d’autres ressources. Globalement, le corpus est certes utilisable mais est-il réutilisable ? Je l’espère. En tout cas, il me tarde de voir signaler les échanges épistolaires d’Eugène Delacroix dans ISIDORE (qui contient déjà 256 ressources sur ce dernier).

Sciences humaines et sociales numériques

Bonjour,
Très prochainement, deux évènements vont avoir lieu dans le monde des sciences humaines et sociales numériques (cette expression fait encore débat pour la version française du terme digital humanities) : le THATCamp Paris 2010 (Paris, 18/19 mai 2010) et la formation sur la gestion numérique des sources de la recherche en sciences humaines et sociales (Aussois, 11/15 octobre 2010) et dont le wiki va être ouvert dans quelques jours sur le site www.digitalhumanities.fr. Ces évènements sont importants. Ils montrent le mouvement actuel d’organisation des shs numériques. Les acteurs du domaine, institutionnels mais aussi informels structurent ce vaste « eldorado ». Depuis deux, trois ans, les actions de formation mais aussi de nombreux ateliers et séminaires se sont multipliés partout en France et les acteurs du domaine, chercheurs, informaticiens, documentalistes et bibliothécaires travaillent de plus en plus en coopération. Des utilisateurs vont à la rencontre de plateformes, services et des communautés de veilleurs naissent et diffusent via de « nouveaux » canaux. Récemment, une collègue de la bibliothèque universitaire de Lyon 1 a présenté sa démarche et son parcours pour la création d’une photothèque utilisant comme réservoir de données MédiHAL. Même si MédiHAL évolue petit à petit, suite aux critiques, conseils, retours des utilisateurs, je suis très heureux de voir que cette application est aussi utilisée en tant que simple conteneur de données. Le projet de la BU de Lyon 1 n’utilise les possibilités de l’OAI-PMH (avec moissonnage du dc:terms par exemple), il utilise cependant MédiHAL comme un simple conteneur (archivé à long terme très bientôt) ainsi il me tarde de voir les premières applications documentaires ou sites web qui viendront moissonner tel ou tel « sets » (collections) OAI-PMH de MédiHAL. Les sciences humaines et sociales numériques comme dirait Lou Burnard sont en pleine évolution : les applications sont en plein « mashup-age », l’archivage à long terme devient une réalité pour les données des SHS et bientôt, sans doute, les résultats de la recherche seront connectés aux matériaux sources de la recherche.

Stéphane.

Master Archives et Images

Bonsoir,

Au détour d’un chemin numérique, guidé par del.icio.us, je suis tombé sur cette formation : le Master Archives et Images de l’université de Toulouse II et sur le site des Anciens étudiants de ce master, regroupé en une association : l’AICI. Cette association développe un site web, très intéressant, qui utilise les flux RSS de del.icio.us dans SPIP : voici une belle illustration du web 2.0 pour de la veille.

Stéphane.

e-rudition : acte 1

Le chemin, c'est l'endroit où l'on passe Nous réfléchissons avec des collègues sur la notion d’érudition à l’heure des masses de données numériques.

La gestion d’une masse importante de données numériques est une chose nouvelle dans certaines branches des sciences humaines et sociales (SHS). Familière en physique, en sciences de l’univers et même depuis quelques années en archéologie, cette notion de masse impose parfois un changement dans la façon de mener les projets de recherche. Si le travail solitaire en archive et en bibliothèque existe toujours, il est également possible de bâtir des projets de recherche ayant pour corpus plusieurs milliers de documents nativement numériques. Ces projets sont le plus souvent collectifs car la numérisation et/ou la gestion de documents numériques – dont le support de conservation peut-être multiple (une photo et un enregistrement sonore peut être sur un même support : un disque dur, une carte mémoire, un CDROM, etc ; je revois le lecteur à la leçon inaugurale en vidéo de Gérard Berry, titulaire au Collège de France de la chaire d’innovation technologique – Liliane Bettancourt) – entraine la mise en place d’une chaine de traitement de ces données regroupant plusieurs savoirs-faire. Si l’un fait défaut, la chaine peut être compromise. Ce n’était pas le cas lors du travail solitaire du chercheur en bibliothèque, sauf si cette dernière disparait ou brule. La masse des données entraine donc une gestion « en équipe » des projets.

La préservation des grandes masses de données numériquement natives, que nous appellerons ici numnatives, soulève une autre question : la fragilité de ces dernières – si facilement effaçables – oblige les personnes y travaillant dessus à utiliser des moyens de stockage et de traitement nouveaux, du moins pour certains domaines. Ainsi apparaît, dans les SHS, la notion de grille de stockage et de calcul pour traiter les masses de données : calculer une surface de polygones à partir d’un nuage de points issus d’un scanner 3D (traitement de façades), traitements 2D/3D dans les systèmes d’information géographique, systèmes de zooms dynamiques sur les images 2D sous PHP/GD, etc. Avec les masses de données, ce qui change, ce sont aussi les besoins de traitement. Ceci entraine un travail obligatoirement collectif, car un chercheur ne peut développer ce type de structure de travail que dans un espace collectif de travail et dans un esprit de partage des données sources non-traitées : on ne monte pas un centre de calcul – donc une chaine de compétences – pour une seule personne. Les masses de données brutes, non traitées, perdront ainsi peu à peu ce curieux statut de « propriété personnelle » de M. ou Mme X. Les données numnatives collectées par une équipe seront petit à petit versées dans de grands réservoirs de données, le plus souvent inter-institutionnels et seront utilisables par plusieurs chercheurs en même temps et travaillant dans plusieurs équipes respectives.

Dans ce contexte, l’érudition sur un domaine, intègre des notions nouvelles : la virtualisation des données, donc la déconcentration des sources du savoir et la notion de flux, donc le pas de temporalité. Il ne s’agit plus de savoir où sont les sources, mais comment les traiter et comment en traiter autant.

Ceci est le point de départ, selon moi, de ce que nous pourrions appeler l’e-rudition.

Photo : Stéphane Pouyllau, Un chemin dans les monts du Caroux, « le chemin, c’est l’endroit où l’on passe ».