ead – Archives du blog de Stéphane Pouyllau

Digital humanities en France : le temps des pionniers

L’Université d’été du TGE ADONIS (Lyon, 3-5 septembre 2008) est la première réunion structurante de la communauté des digital humanities (digital humanities) en France. Elle est probablement le point de départ d’un formidable travail commun, à un niveau national, que l’ensemble des acteurs de ce domaine s’efforcent de construire avec le soutien de certains grands acteurs nationaux tel que le Centre national de la recherche scientifique mais également avec l’appui de collègues étrangers.

Pour la première fois, les producteurs de données numériques, les éditeurs électroniques, certaines institutions de recherche, des chercheurs, des ingénieurs et des centres de calcul et de stockage de données étaient réunis afin de réfléchir à l’amélioration des accès aux documents numériques primaires (sources) et secondaires (publications, revues, ouvrages numériques ; archives ouvertes d’articles).

Les digital humanities, discipline ancienne¹ finalement, offrent aux chercheurs et aux enseignants des méthodes, des processus de travail, des briques technologiques et des outils, des infrastructures dédiées leurs permettant de structurer les matériaux afin de mieux les appréhender sur le plan scientifique. Actuellement, l’environnement de la recherche en SHS devient numérique : les données pour la recherche (primaires et secondaires) sont accessibles de façon numérique, certains documents sont nativement des originaux numériques (photographie, données d’IRM en anthropologie, etc.) ; les catalogues de bibliothèques et d’archives sont presque tous « en ligne » et il devient possible de commander des copies numériques de documents ; le bureau du chercheur/enseignant est numérique (missions, rapports, emails, cours, environnement numérique de travail dans les Universités) devient numérique. Faites la somme des services numériques que vous utilisez sur une semaine et vous verrez. La recherche en SHS, comme partout, utilise le numérique. Certains projets de recherche multi-équipes, géographiquement éclatés, ne pourraient pas fonctionner si des outils de partage de données, d’annotations croisées, de visio-conférences, n’existaient pas. Il est toujours possible de travailler seul, en bibliothèques ou en archives, avec du papier, pour le coté « vintage », presque une image d’épinal, mais l’ordinateur portable est aujourd’hui un classique. J’inclus dans le coté « vintage » l’utilisation du numérique pour reproduire le modèle de la bibliothèque : il y aurait danger à ce contenter de cet horizon car les digital humanities doivent aller plus loin et cela passe par le développant de services fonctionnels qui ne pourront être que collectifs à l’image des grandes infrastructures des sciences physiques. L’évolution des digital humanities se fait pas palier et l’école d’été du TGE ADONIS en est un selon moi. Ceci m’amène à réfléchir sur les différents « époques » de l’évolution de cette discipline, quels sont les ages des digital humanities en France ?

L’époque 1 correspond à la migration de la bibliothèque du réel au virtuel par la numérisation et par l’utilisation d’un vecteur : le web (mettre le catalogue en ligne ; mettre des données en ligne en liaison avec ce catalogue) ; c’est la gallicalisation des bibliothèques.

L’époque 2 débute avec l’XML-isation des corpus textuels et iconographiques : TEI ou XMP encapsulé dans de l’EAD ou du METS et exposé via de l’OAI-PMH. Cette époque est aussi celle du « CMS roi » et de la base de données utilisant des SGBDR open-source pour le stockage des données et méta-données : souvent pour palier les faiblesses du XML en la matière.

L’époque 3 est/sera celui des grilles : grilles de données (virtualisation) ; grille de calcul (dont le besoin en archéologie 3D est déjà une réalité) ; grilles logicielles et ESB (pour Enterprise Service Bus) tel que nous le réalisons dans le cadre du TGE ADONIS.

L’époque 4 sera (peut-être, sûrement même) celui du web des machines qui échangerons du sens (voir les travaux de Got).

La particularité des digital humanities est que tout le monde n’est pas obligé de changer « d’époque » en même temps, il y a des temps différents qui ont tendance à créer des sous-époques. Mais globalement, sur le plan collectif, je pense que nous sommes entre l’époque 2 et 3.

Stéphane.

1 Je renvois le lecteur à la présentation de Lou Burnard lors de l’école thématique du CNRS de Fréjus organisée par les centres des ressources numériques CN2SV, TELMA et CRDO disponible sur www.cn2sv.cnrs.fr/ecole-sources-num

ICA-AtoM : un logiciel web pour la description de fonds d’archives

Bonjour,

L’International Council on Archives (ICA) en partenariat avec The Dutch Archiefschool Research Institute et Artefactual Systems Inc. proposera dans quelques semaines une première version béta d’ICA-AtoM. La Direction des archives de France sont également de la partie.

ICA-AtoM est l’accronyme de International Council on Archives – Access to Memory. Ce projet a été créé autour d’un autre projet de l’ICA sur les droits de l’homme « The ICA Archives and Human Rights working group ». Ce projet a obtenu un fiancement de l’UNESCO pour réaliser un guide avec moteur de recherche sur les fonds d’archives concernant les violations des droits de l’homme. De ce projet, basé sur les standards de l’ICA, est né le projet d’ICE-AtoM.

Sur le plan technique, cet outil s’appuie sur le framework Symfony (PHP5) et donc sur un modèle MVC ( Model-View-Controller) dont les auteurs détaillent le plan dans le blog de développement. Le conteneur de données semble être MySQL par défaut, mais les auteurs, qui ont utilisés le connecteur Propel, indiquent qu’il sera possible d’utiliser d’autres SGBDR.

Le guide réalisé pour HumansRights est en ligne mais il n’est pas très fonctionnel, hélas, mais une vidéo est disponible. ICA-AtoM sera sans doute présenté lors du prochain congrès de l’ICA qui aura lieu à Kuala Lumpur du 21 au 27 juillet 2008. Affaire à suite.

Bon week-end, Stéphane.

Encoder en EAD, EAC et METS avec Daofind/Midosa sous Eclipse 3.2

Bonsoir,
Je travaille depuis quelques semaines avec Midosa editor for XML standards issu du Daofind project. Il s’agit d’un environnement de travail EAD/EAC/METS sous Eclipse 3.2. Développé par les Bundesarchiv (Berlin), Midosa/Daofind permet l’encodage XML avec validation des tags et niveaux en temps réel via le schéma EAD ou METS. Si la prise en main est plus complexe que XMLmind+ATES (mais qui ne fonctionne qu’avec la DTD EAD de 2002), le dico des éléments EAD est très pratique et particulièrement fonctionnel. Ainsi il devient assez simple d’encoder en EAD/EAC et de faire du METS par la suite. Midosa/Daofind est un outil intéressant pour les services d’archives et les personnes souhaitant se lancer dans l’EAD/EAC et la gestion des fichiers METS, avec le guide EAD sous le bras tout de même.
Cerise sur le gâteau, l’export HTML, véritable « impression numérique », transforme un fichier EAD en un instrument de recherche à la mode PLEADE.

METS-ment votre,
Stéphane.

SDX, pleade, EAD, et voila !

Bonjour,
La prochaine ouverture de la nouvelle plateforme de publication d’instruments de recherche en XML EAD du Centre National pour la Numérisation de Sources Visuelle est très proche (dans les jours qui viennent). Utilisant SDX et Pleade, elle permet de publier des inventaires archivisitiques encodés en XML-EAD. Les inventaires déjà réalisés par le CN2SV y sont versés. Pour nous, elle fait partie du bloc « Accès » du modèle OAIS. Mais pour le moment, en avant première, une petite vidéo de démonstration postée sur YouTube. bon, ok, l’image n’est pas très nette, mais cela donne tout de même une idée.

A très bientôt, Stéphane.

EAD, EAC, METS à Berlin

Bonjour,
Pendant 3 jours, la communauté des archivistes s’est réunie à Berlin pour faire le point sur les possibilités et les évolutions des grammaires XML EAD, EAC, et METS. Les présentations furent toutes d’un très haut niveau et elle ont prouvé que les méthodes de communication des archives par voie numérique utilisent de plus en plus le XML. Dans plusieurs cas, elles se rapprochent du modèle OAIS en ce qui touche l’organisation et la gestion des archives numérisées. Le milieu des archivistes a bien compris comment tirer profit de ces DTD et autres schémas. Le projet allemand DAOFIND illustre parfaitement cela. Ce logiciel (qui est un module d’Eclipse) permet de travailler très facilement ces fichiers EAD et METS. Il n’est pas le seul exemple en Europe : Italiens, Français, Espagnols ont aussi de nombreux outils très bien conçus. De plus en plus, la chaîne « tout » EAD voit le jour : inventaires, catalogues, numérisation, encodage se font de façon synchronisée et en simultané ce qui permet d’accélérer la diffusion des archives aux publics.

Stéphane.

Les mains dans Tomcat, Cocoon, SDX, etc.

Bonsoir,
Il est des jours qui sont trop courts… Je suis depuis deux jours dans l’installation d’un serveur pour le pôle HSTL et le CN2SV sous Apache/Tomcat6 faisant tourner en parallèle SDX, Cocoon, METS Navigator. Sous Tomcat 6.0.10 et JVM 1.5 ces briques semblent bien tenir la route. Cependant, chez moi, Cocoon n’est pas encore très stable, mais cela viendra (désolé Got).
L’idée principale est de proposer une plate-forme applicative simple, offrant à nos producteurs la consultation d’AIP stockés soit en EAD soit en METS (voir MODS que j’expérimente en diffusion via un outil OAI-PMH, mais là c’est une autre histoire, et c’est très neuf). Je suis encore septique sur la pérennité à long terme des frameworks java tant l’empilement des couches (ou briques) technologiques semble fragile. Je compare cela à une application « classique » MySQL+PHP tournant sous LA »mp ». L’avenir nous le dira…
Stéphane.

METS Navigator : une application web robuste pour la diffusion de documents structurés en METS

Bonjour,

Je profite de quelques jours de vacances à la montagne pour tester – entre deux journées de ski – quelques outils d’exploitation de fichiers xml.

Le problème majeur avec les technologies utilisant xml reste l’exploitation réelle en production des documents. Le passage à la production reste complexe. La mise en ligne d’un document xml nécessite l’emploi d’une feuille de style xsl si l’on veut rendre compréhensible par tous les données contenus dans le dit document. Au plus simple, l’action d’interprétation (le parsage) du xml suivant la feuille de style sera laissée au navigateur web du client avec des différences notoires entre les résultats. Il existe des applications web (programmes informatiques exécutables au travers de serveurs web) qui permettent de traiter cette tache du coté du serveur et donc de rendre homogène le résultat à l’écran et surtout de réduire le temps de parsage pour peut que l’on ait un serveur puissant.

Le service informatique de la bibliothèque numérique de l’Université d’Indiana et la Bibliothèque Lilly de cette même Université viennent de mettre au point l’une de ces applications : METS Navigator. Comme son nom l’indique, cette application permet d’exploiter une collection de fichiers xml respectant le schéma METS. METSNav est une application web fonctionnant sous Tomcat d’apache et Java et dont l’installation est facilitée par la mise à disposition par l’équipe de l’UI d’une archive war permettant un déploiement rapide.

Dans la documentation de METS Nav, l’introduction résume bien le produit :

« METS Navigator is an open source METS-based system for displaying and navigating sets of page images or other multi-part digital objects. METS, the Metadata Encoding and Transmission Standard, is a freely available XML standard, maintained by the Library of Congress, for managing and describing digital library objects. Using the information in the METS elements, METS Navigator builds a hierarchical menu that allows users to navigate to specific sections of a document, such as title page, specific chapters, illustrations, etc. METS Navigator also allows simple navigation to the next, previous, first, and last page image or component part of a digital object. METS Navigator also makes use of the descriptive metadata in the METS document to populate the interface with basic descriptive information about the digital object. METS Navigator is built using Java and open source Web technologies, including the Apache Struts Web Application Framework, the Castor Java & XML Data Binding libraries, and Ant, and runs under a Web application server such as Apache Tomcat. METS Navigator was developed by the Indiana University Digital Library Program. »

Cette application sépare bien la partie programme, les interfaces et la partie « stockage » des fichiers xml qu’il est tout à fait possible de virtualiser à minimal sur une autre machine locale ou dans le même réseau (elle ne va pas aussi loin en matière de virtualisation que l’application créé par le Centre de Ressouces Numériques Telma) mais elle ressemble sur ce plan là, à l’application EXE que nous avons développé avec l’équipe du Centre National pour la Numérisation de Sources Visuelles pour l’exploitation des fichiers xml normalisés en EAD. Il est également très facile de faire sienne cette application, c’est à dire de la mettre en production dans un environnement informatique même restreins : petits services de documentation, de bibliothèques de laboratoires ayant des archives scientifiques, ou même encore services d’archives. « METS Nav. » fonctionne aussi bien avec une architecture Linux ou Windows (avantage du moteur de servlets Tomcat) et semble être très stable. Il y a cependant quelques restrictions au niveau des noeux METS, mais la documentation proposée est très complète.

En conclusion, cette application web me semble très prometteuse pour l’avenir car elle offre un cadre puissant, clair, dans le respect des standards et sous licence propre mais open source. J’ai contacté Mme Michelle Dalmau (une des auteurs de METS Navigator) qui m’a confirmé l’amélioration de l’application dans un futur proche.

Nous le voyons bien, les applications web permettant l’exploitation – en production (voir l’exemple de telma ou du cn2sv) – d’entrepôts xml (stockage distribué ou centralisé, xml natifs ou extractions) donne enfin une nouvelle dimension à la mise à disposition de documents sur le web.

Stéphane.

Ressources : METS Navigator – http://metsnavigator.sourceforge.net/

METS, PREMIS dans des cases

Bonjour,
Got des Petites Cases propose un très bon articles dans son blog sur METS, PREMIS et nos fameux SIP dictés par l’OAIS : j’en profite pour signaler l’atelier technologique du CN2SV (dont je suis le chargé de mission pour le CNRS) qui se tient à Fréjus (Villa Clythia du CAES) à partir de demain (le 16 oct. 2006) et pour trois jours. Nous allons discuté autour de l’EAD, METS, XMP, Archives de scientifiques accessibles via le web (sémantique forcément), etc.
Je file donc à la gare de Lyon…
Stéphane.