archives numériques – Archives du blog de Stéphane Pouyllau

Retour sur le colloque « Nouvelles archives numériques au Proche-Orient : le son, l’image, le film et le web »

J’ai participé au colloque « Nouvelles archives numériques au Proche-Orient : le son, l’image, le film et le web » organisé à Beyrouth par l’Institut français du Liban, des universités Aix-Marseille Universitéet l’Université libanaise, laMaison méditerranéenne des sciences de l’homme(MMSH) et l’Institut français du Proche-Orient. Le thème du colloque m’a plongé pendant quelques jours sur les méthodes de constitution des matériaux de recherche issus des terrains des historien·nes, géographes, archéologues, sociologues et ethnologues.

Ouverture du colloque « Nouvelles archives numériques au Proche-Orient : le son, l’image, le film et le web » à la bibliothèque nationale du Liban — Photo S. Pouyllau, 29 mai 2019.

Le programme, très riche, m’a fait pas mal réfléchir sur les besoins méthodologiques et d’outillage pour les chercheurs et doctorants. C’est encouragement et une piqure de rappel, du terrain, pour un travail un peu réflexif sur ce que nous avons monté depuis 10-15 autour des infrastructures de recherche (OpenEdition, Huma-Num, etc.). Les « nouvelles archives » (matériaux des réseaux sociaux, vidéos Youtube, sites Web, etc.) sont des traces fragiles : en raison des politiques des plateformes, en raison des techniques utilisées pour les construire mais aussi et enfin en raison des pratiques des chercheur·es (gestion de leurs stockages, de leurs bases de données, etc).

Elles sont fragiles aussi — naturellement, par les aléas politiques et géopolitiques d’une région complexe. En ce sens la conférence très dynamique de Carla Eddé (historienne et vice-rectrice pour les relations internationales à l’Université Saint-Joseph) sur « Archives, mémoire, histoire » a très bien montré la construction actuelle (et la non-construction) de la mémoire du Liban contemporain, de la mémoire de la guerre civile du Liban (1975-1990) autour de la question « des gouts de l’archive » dans le Liban d’aujourd’hui. En ce sens j’y ai vu des connexions avec le programme de recherche « Le goût de l’archive à l’ère numérique ».

La fragilité des données numériques et leurs mises en archive, ont été particulièrement bien illustrés par les communications de Cécile Boex (EHESS, Césor) sur « Archiver les vidéos vernaculaires de la révolte et du conflit en Syrie : enjeux éthiques et politiques » et Zara Fournier (doctorante en géographie à l’université de Tours, labo CITERES) sur « Désirs d’ailleurs et d’avant : les militants de la mémoire et le Web au Sud du Liban ». En conclusion, la question de la compréhension et de la maitrise des méthodes numériques pour la bonne gestion des données de terrain, mais aussi la compréhension des interconnexions des outils forgés a été très bien résumée par Kamel Doraï, directeur du département des études contemporaines de l’Ifpo.

Ponctué de projection de film, dont l’impressionnant « Tadmor » de Monika Borgmann et Lokman Slim (bientôt en salle à Paris). J’espère que le colloque donnera lieu à une publication d’actes, ou des enregistrments qui ont été effectué par Jean-Christophe Peyssard (Ifpo) et Véronique Ginouvès (MMSH).

Le programme détaillé du colloque est disponible sur le site : https://nanpo.sciencesconf.org.

Hypotheses.org et MédiHAL : l’embarquement des images

Bonjour,
Il y a longtemps que je voulais faire une petite vidéo d’écran pour montrer comment « embarquer » – c’est le terme consacré – une photographique numérique déposée dans MédiHAL (réalisée par le centre pour la communication scientifique directe) dans une plateforme d’édition électronique telle que hypotheses.org (réalisée par le centre pour l’édition électronique ouverte). Comme, je suis en congés, j’ai pris le temps de la faire hier soir. Elle inaugure une nouvelle série de billet de ce blog, les « vidéos pédagogiques de pouyllau » qui auront vocation de montrer qu’il est possible d’articuler les plateformes web entre elles afin de proposer des contenus, articles, des données< riches, etc en exploitant les possibilités de partage, API, etc. de ces dernières. Cela dit, je signale d'ailleurs qu'il existe un carnet de recherche sur hypotheses.org qui regroupe des conseils d'utilisation, annonces, autour de la plateforme hypotheses : c'est la maison des carnets. Vous y trouverez une vidéo similaire présentant comment « embarquer » des données venant d’Archive.org, Youtube, etc. MédiHAL, archive ouverte publique, archivée au CINES, présente l’intérêt d’être une plateforme ouverte, proposant plusieurs services de valorisation des fonds photographiques qui y sont déposés : les collections de MédiHAL en particulier.

Sur cela, je vous laisse visionner le tutoriel :

A bientôt pour une prochaine vidéo.

Stéphane.

Le meilleur format de conservation des données numériques, c’est vous.

Got vient de publier un billet très intéressant sur le fait que la notion de format pérenne ne veut rien dire. Je suis entièrement d’accord et nous sommes plusieurs ingénieurs, dans les sciences humaines et sociales numériques, à partager cet avis. L’information, encodée dans un fichier numérique, est dépendante de la structure du format, de ses spécifications, des logiciels capables de lire ce format et d’offrir ainsi « une vue », à un instant T, sur l’information. Faire de l’édition en ligne, diffuser des données, nécessite d’être conscient de fragilité des formats dans le temps. Il est facile de l’être pour qui a déjà perdu des données importantes.
Cela dit, j’irai plus loin que Got.
Dans un cas extrême, un format ouvert, mais mal documenté ou dont la documentation n’a pas été bien maintenue dans le temps, peut être plus complexe à migrer qu’un format propriétaire. Pourtant les formats propriétaires sont liés au cycle de vie de plus en plus court des versions de leurs logiciels « maitres ». S’il est aujourd’hui possible de migrer, sans trop de problème, un fichier propriétaire de la version N à N+1 de son logiciel « maitre », il souvent difficile de faire du N+3 ou 4. Également, certains types de formats sont encore trop propriétaires : c’est le cas des fichiers 3D. Si le VRML, et son « successeur » le X3D sont ouverts et normalisés, ces formats n’occupent pas réellement la place de « format pivots », éligibles à un archivage à long terme de type OAIS : ils sont considérés comme « trop pauvres » par les modeleurs que les format 3D propriétaires de type .max de 3DS max pour cela. Il est d’ailleurs curieux que le VRML et le X3D soient vus comme des formats pivots alors qu’ils n’ont pas été créés pour cela. Souvent, des collègues non spécialistes me dise : « on fera une sortie VRML pour sauvegarde » : sont-ils conscient de l’appauvrissement de l’information entre un fichier max et VRML ? Les travaux du centre de ressources ArchéoVision du CNRS, dirigé par Robert Vergnieux, éclairera ces questions dans les années qui viennent par la création du conservatoire des données 3D du patrimoine.

Formats ouverts, formats propriétaires… maintenir l’accès à l’information est avant tout une histoire de veille technologique humaine et de conseils aux utilisateurs et aux décideurs. Il est aussi important de dire clairement pourquoi un format ouvert peut être, à un moment de son évolution, moins bon pour l’archivage numérique à long terme. Un format bien documenté ne sert a rien si personne n’en suit les évolutions et les usages. Il faut des équipes qui « suivent » les choses dans le temps : l’archivage à long terme des données déposés dans HAL a mobilisé plusieurs équipes formées d’archivistes, d’informaticiens, de chercheurs en amont même !

Ainsi, le meilleur « format » numérique de conservation ne sert-il pas l’humain ?

Stéphane.

Des données brutes 2.0

L’administration Américaine a lancé data.gov : une plateforme d’accès aux données brutes de la santé, l’environnement, l’énergie, recherche, éducation. C’est très (trop?) ambitieux, voir utopique (mais il s’agit des USA) et d’ailleurs cet avis est partagé. Mais l’initiative est là et la plateforme déjà en ligne : il s’agit d’un projet hybride entre archives, recherche et accès. Ce projet, une récente discussion avec Got, croisée d’une journée avec les collègues du Centre de calcul de l’IN2P3-CNRS (qui héberge beaucoup de données issues des SHS), m’a conforté sur la notion et la nécessité de réservoirs de données brutes pour la recherche en SHS.

Ces réservoirs existent aujourd’hui dans les laboratoires de SHS, mais les données qu’ils contiennent sont souvent encore perçues comme des données « privés », réservées aux chercheurs locaux. Il est vrai qu’ils les ont collectées ou générées et ce travail n’est pas réellement reconnu dans le parcours d’un chercheur alors qu’il est fondamental. Ces données « pour la recherche » ont donc souvent tendance à « mourir » au fond de nos disques durs faut d’une infrastructure double : archivage des données (pour l’histoire), diffusion des données « brutes » et pas forcement éditorialisées dans une publication électronique académique mais mise à disposition de la communauté scientifique comportant un minimum d’appareil éditorial basé sur le Dublin Core Terms par exemple. D’autant que souvent, ces données ont été collectées ou générées sur fonds publics (ne serait ce que le salaire du chercheur).

Bien sur, il faut pondérer ici le fait que certaines données sont sensibles de part leur nature et que la mise à disposition ou la diffusion est complexe et nécessite des barrières mobiles parfois très longues.

En france, il existe des initiatives intéressantes, encore trop peu soutenues financièrement, mais cela avance, cela se structure et des formations, pour les chercheurs et enseignants-chercheurs, voient le jour tel que l’université d’été de l’édition scientifique ouverte, qui aura lieu en septembre 2009, ou bien l’école thématique des centres nationaux de ressources numériques du CNRS dont le wiki est en ligne avec toutes les communications, les bibliographies numériques, en ligne, etc.

Alors, en ce mois de juillet, j’ai envie de dire : « ouvrez vos données à vos collègues et au monde » et j’espère aussi, soyons fou, un donnees.gouv.fr ?

Il est temps, dirons certains, que je parte en vacances.

Stéphane.

Bibnum : une bibliothèque numérique et virtuelle des textes fondateurs de la science

Bonsoir,

Notre collègue, Alexandre Moatti, vient de lancer la bibliothèque numérique bibnum qui se positionne sur la mise à disposition des principaux textes scientifique antérieurs à 1940 pour un large public (mais aussi pour les étudiants et les scientifiques). Ces textes fondateurs pour la science, sont tous accompagnés d’un commentaires écrit par des scientifiques actuels. Comme l’annonce l’édito du site les textes sont « commentés par des scientifiques contemporains qui souhaitent partager leur intérêt pour ces textes et analysent leur impact dans la science et la technologie actuelle ».

Dans la consultation, la navigation par onglet permet, très clairement, de passer du texte au commentaire, une bibliographie et une webographie sont toujours associées aux textes édités. Un vrai beau travail mariant la documentation, l’édition, la science et l’histoire.

Utilisant la technologie « ipaper » issue du projet scribd.com, très belle, rapide, encapsulable, il est également possible d’avoir les références bibliographiques (du texte et du commentaire) dans un format « zotero compatible », en XML et au format BibTex. L’embedding est un classique maintenant.

Il est un peu dommage que les textes, disponible en PDF « cherchable » (image sur texte, mais assez dont l’assemblage est assez curieux), ne soient pas également disponibles dans un format « ouvert » (XML balisé selon la TEI par exemple) au téléchargement. A suivre…

Stéphane.

Le recensement canadien de 1881 en ligne

Bonjour,

La bibliothèque et les archives du Canada (BAC) ont ouvert le 6 août 2008 un site permettant l’accès aux données du recensement canadien de 1881. Les données du recensement, qui offrent une véritable photographie de la vie au Canada en 1881, sont à la fois disponibles au travers d’une base de données textuelle (avec un formulaire de recherche très complet, voir complexe, mais très intéressant pour les généalogistes) et sous la forme d’images JPEG (de bonne qualité) ou de fichiers PDF présentant les données originales (visiblement numérisées depuis un micro-film).

L’interface est très simple, très clair et très bien documenté ce qui facilite les recherches. Il est dommage d’un système de panier, permettant de conserver ces recherches pour le temps d’une session, ne soit pas proposé. Cependant, cet outil – en français et en anglais – est une très belle réalisation et il enchantera les chercheurs et les généalogistes. L’utilisation des images semble libre – pour une utilisation recherche ? – puisqu’il est proposé :
« Vous pouvez imprimer les images ou les sauvegarder sur votre ordinateur. Utilisez le lien suivant pour accéder à d’autres options, telles qu’emprunter des microfilms. »

Sans tomber dans la surenchère technologique, ce site illustre, avec tous ceux déjà réalisés par ces deux institutions, l’importance future de ces réservoirs de données pour les digitals humanities dans le monde.

Stéphane

Archive numérique d’Objets et de Matériaux iconographiques

L’annonce faite par Dan Cohen de l’association entre Zotero et Internet Archive pour la création de Zotero Commons (« The Zotero-IA alliance will create a “Zotero Commons” into which scholarly materials can be added simply via the Zotero client. » nous dit Dan Cohen) est très intéressante car elle (re)place les matériaux de recherche (carnets de terrains, carnets de notes, documents numériques, etc.) dans le monde des Archives Ouvertes. Ces dernières prendront peut-être à cette occasion un nouveau sens. Bien sur, il y a plein de problèmes à résoudre dans ce type de projets : la question des droits (cruciale, pour documents visuels dont le statut – à la prise de vue – est souvant flou ou mal défini), l’utilité de proposer tel ou tel document (pertinance), le rôle des intermédiaires ou « rouages classiques » entre les chercheurs, les étudiants et le grand public que sont les bibliothèques et centres de documentation.

Dans mon domaine, les Sciences Humaines et Sociales, les matériaux ayant été utilisés par les chercheurs pour leurs recherche sont très souvant publics, libres de droits ou en passe de le devenir (il suffit de faire de bonne convention avec les institutions dépositaires ou d’attendre…) et donc archivables dans une Archive numérique d’Objets et de Matériaux iconographiques (ou AOMS). C’est ce que nous tentons de construire, du moins de préfigurer avec le Centre National pour la Numérisation de Sources Visuelles et avec le soutien du TGE ADONIS et du département SHS du CNRS. Au CN2SV, nous travaillons avec des bibliothèques, des centres de documentation, des services d’archives autour du thème « archives – recherche – informatisation des données » définie par ma collègue Christine Blondel, historienne des sciences et chercheur au CNRS. Notre plateforme AOMS fonctionne depuis un an.

Ces projets permettront d’accroitre les échanges entre les scientifiques. Ils permettront aussi d’améliorer les méthodes et outils pour la conservation de nos fragiles documents numériques et ils seront les structures de conservation des matériaux des historiens du futur.

Bonne année 2008, à bientôt,

Stéphane.

Guides pour réussir une numérisation

Je ne le répèterai assez jamais, mais l’informatisation des données ne se réduit pas uniquement à la numérisation de documents. Cependant, la numérisation – qui semble être un acte banal aujourd’hui pour beaucoup de monde – est une étape importante dans un projet. Toute numérisation doit d’appuyer sur la rédaction d’un cahier des charges. Les Archives de France proposent, en ligne, un guide technique très complet qui peut aider dans une telle rédaction (même si ce guide est très administratif sur le plan de la terminologie). Florence Clavaud (Directrice des nouvelles technologies et de l’informatique à l’Ecole nationale des Chartes) a réalisé, dans le cadre du centre de ressources TELMA et pour le Très grand équipement ADONIS, un guide des bonnes pratiques de numérisation et d’informatisation des données rapide à lire. J’encourage tout le monde à lire ces documents avant de ce lancer dans un projet de numérisation de corpus iconographiques (dans le cadre d’un projet ANR par exemple).

Stéphane.

AOMS : Google et le cycle de vie proposé par le DCC

Bonjour,

La relance du projet Palimpsest par Google a été depuis quelques jours largement commentée dans la blogosphere. Il est intéressant de mettre cela en perspective avec la publication par le Digital Curation Center d’un modèle présentant un cycle de vie des données numérique issues et surtout utiles pour la recherche. C’est deux annonces permette de bien comprendre que stocké n’est pas préservé. Le modèle du DCC propose une chaine complexe – qui s’agira de traduire en français afin d’en diffuser plus largement le contenu – mais nécessaire pour assurer la conservation numérique. Ce modèle est intéressant car il pose les questions hors des questions de stockage physique qui monopolises généralement les équipes de recherche (et les chercheurs isolés) qui n’ont que très rarement dans leurs équipes un bon gestionnaire IST (documentaliste, bibliothécaire ayant une spécialité en matière de numérique). Il faut promouvoir ce type de modèles/schémas, les présenter dans les formations (IUT, Universités, etc.) et faire des mises en application dans les projets de recherche actuels. Les Centres de Ressources numériques TELMA, CRDO et CN2SV, créés par le CNRS en 2005, organiseront en oct. 2008 une Ecole Thématique sur ce sujet avec le soutien du très grand équipement ADONIS.

Stéphane.

Netscape, 1994-2008

Bonsoir,

En cette fin d’année 2007, nous apprenons la fin officielle du support de Netscape au 1er février 2008. Netscape, né en 1994, est le premier navigateur web digne de ce nom pour la première génération des internautes. Je me souviens des premières heures du HTML, du javascript d’avant l’AJAX et du « N » bleu qui « dansait » dans le coin de Netscape 1.0.

En fait, Netscape se retire au profit de Mozilla, fondation dans laquelle Netscape est partenaire, et donc la suite de Netscape est un peu Firefox. Bye bye, Netscape et merci.

Stéphane.

Omeka : un outil du CHNM pour créer des expositions virtuelles

Bonjour,

Annoncé il y a quelques semaines sur le site du CHNM (Center for History and New Media, qui réalise déjà l’outil Zotero), la plateforme Omeka permet la mise en ligne de collection de documents visuels et de créer des expositions virtuelles. Encore en version « béta », je n’ai pas pu – encore – pu tester, cette nouvelle application reposant sur LAMP + ImageMagik mais dont le site présente les caractéristiques principales, voir omeka.org. Omeka s’inscrit dans une lignée d’outils déjà existants dont le plus connu en Europe est Pinakes (dont la version 3 est aujourd’hui open source) mais qui s’adresse cependant davantage aux musées et à des collections bien documentées. Omeka apporte avec lui quelques standards : tel que l’utilisation des métadonnées Dublin Core dans ces différents niveaux (items, collections,etc). Pour le moment un projet est équipé avec Omeka : le projet hurricanearchive.org. Ce projet permet la collecte de photographies et de données visuelles sur les dégâts engendrés par les cyclones Rita et Katrina.

Joyeuses fêtes,

Stéphane.

ICA-AtoM : un logiciel web pour la description de fonds d’archives

Bonjour,

L’International Council on Archives (ICA) en partenariat avec The Dutch Archiefschool Research Institute et Artefactual Systems Inc. proposera dans quelques semaines une première version béta d’ICA-AtoM. La Direction des archives de France sont également de la partie.

ICA-AtoM est l’accronyme de International Council on Archives – Access to Memory. Ce projet a été créé autour d’un autre projet de l’ICA sur les droits de l’homme « The ICA Archives and Human Rights working group ». Ce projet a obtenu un fiancement de l’UNESCO pour réaliser un guide avec moteur de recherche sur les fonds d’archives concernant les violations des droits de l’homme. De ce projet, basé sur les standards de l’ICA, est né le projet d’ICE-AtoM.

Sur le plan technique, cet outil s’appuie sur le framework Symfony (PHP5) et donc sur un modèle MVC ( Model-View-Controller) dont les auteurs détaillent le plan dans le blog de développement. Le conteneur de données semble être MySQL par défaut, mais les auteurs, qui ont utilisés le connecteur Propel, indiquent qu’il sera possible d’utiliser d’autres SGBDR.

Le guide réalisé pour HumansRights est en ligne mais il n’est pas très fonctionnel, hélas, mais une vidéo est disponible. ICA-AtoM sera sans doute présenté lors du prochain congrès de l’ICA qui aura lieu à Kuala Lumpur du 21 au 27 juillet 2008. Affaire à suite.

Bon week-end, Stéphane.

KML simple et géodonnées (partie 1)

Il est possible de construire rapidement de petites applications simples permettant d’exploiter des documents issus d’archives visuelles (cartes, photos, plans) en les connectant a des données bibliographiques. Ces applications utilisent de plus en plus les langages du web (et, depuis 2005, ceux du web 2.0) et elles se développent autour d’XML. Voici une première partie/introduction au KML et le début d’un exemple avec le géo-référencement 2D de cartes anciennes via Google Maps, du KML et du XML.

Le KML (Keyhole Markup Language) est une grammaire XML permettant d’afficher et de gérer des données dans Google Maps et Earth. Il offre la possibilité de poser des points, tracer des lignes, des polygones. Dans Google Earth, s’y ajoute les angles de vue, les objets 3D simples ou texturés. Mais l’une des fonctionnalités les plus intéressante pour la recherche reste l’enrichissement en données externes. KML peut diffuser des données XHTML riches (textes, images, videos), des images plaquées sur la photo satellitaire, etc…

Il existe une version compressé du KML, le KMZ. Pour ceux qui ont utilisé comme moi du VRML (Virtual Reality Modeling Language), nous avions aussi une version « Gzipé » du langage : le .wrz (à la place du .wrl). le KMZ encapsule aussi les images qui peuvent être liées au fichier KML. Il est possible de fabriquer du KMZ avec un simple compresseur : WinZip, Gzip, etc.

Sur le plan syntaxique, le KML se présente comme du XML :

<?xml version= »1.0″ encoding= »UTF-8″?>
<kml xmlns= »http://earth.google.com/kml/2.2″>
<Placemark>
<name>Siège du CNRS</name>
<description>Paris, le siège du CNRS.</description>
<LookAt>
<longitude>2.264605600614077</longitude>
<latitude>48.84727288728012</latitude>
<altitude>0</altitude>
<range>171.6689944655567</range>
<tilt>-6.848248640637841e-011</tilt>
<heading>0.0004740658326556625</heading>
</LookAt>
<Point>
<coordinates>2.264605600614077,48.84727288728013,0</coordinates>
</Point>
</Placemark>
</kml>

Ce petit fichier KML permet de placer dans Google Earth ou Maps, un point localisé sur le siège du CNRS, l’élément <LookAt/> correspondant au point de vue de la caméra qui « regarde » ce point. <Placemark/> encapsule le <Point/> géocodé présentant la latitude et la longitude. Dans le monde Earth / Maps de Google, les coordonnées géographiques sont en degrés décimaux (comptés positivement vers le Nord pour la latitude, et vers l’Est pour la longitude). Ici, le géocodage est très précis (2.264605600614077), mais si vous utilisez l’API de Maps, la précision est de l’ordre du mètre. Autre limite, dans Google Maps, seuls certains éléments peuvent être utilisés : les points, les lignes, les polygones, les styles, les icônes et les liens et l’application de couches multiple (placage d’images), mise en œuvre de dossiers et types de vues. Pour le moment (version 2.2 du KML) la 3D n’est pas utilisée (nous sommes dans Maps, donc le royaume de la 2D).

Ce petit exemple, permet de ce lancer dans la construction de fichiers KML et ainsi enrichir en information de toutes sortes de cartes dans le vaste « bac à sable » que peut être Google Maps ou Earth. De nombreux scientifiques, les géographes principalement, utilisent déjà ce format. J’ai découvert aussi ce site qui présente Google Earth et le KML pour les enseignants du secondaire. Le KML n’est pas le seul format XML dans le domaine des « géo-formats/2D/3D » : il y a le WMS, WFS et GML venant du monde de la géographie, les formats pour « services web » : AtomPub, GeoRSS et le KML/Z (avec d’autres limites cependant).

Dans le cadre du CN2SV, nous avons publié l’inventaire d’un fonds de cartes topographiques anciennes (XIXe-XXe siècle) de la cartothèque du centre de documentation REGARDS-CNRS. Nous avons décidé de coupler ce fonds de cartes, après numérisation, avec une base de données bibliographique/documentaire classique. Pour cela, nous avons utilisé une base de données intermédiaire qui, à partir des données lat./long. des quatres angles d’une carte, a pour mission de stocker des données pour produire à la fois du KML (pour l’instant sous la forme de petit fichier, donc nous sommes en mode asynchrone) qui peut être utilisé dans Google Earth pour visualiser l’emprise de la carte, ces villes importantes, etc. Mais aussi du XML compatible avec l’API de Google Maps (qui est légèrement différent du KML natif, du moins dans sa version 2.2 ).

Dans un second temps, j’ai développé une petit programme PHP qui exploite ces fichiers XML (pour l’API…) dans un contexte l’application riche. Du KML simple, nous passons dans un micro format XML propre (mais nous pourrions faire cela avec du KML directement, c’est juste une histoire d’optimisation du fichier pour l’API de Google Maps), ainsi pour chacune des cartes nous avons ceci :

<?xml version= »1.0″ encoding= »UTF-8″?>
<mygeod xmlns= »http://www.cn2sv.cnrs.fr/xml/mygeoc/0.1″>

<markers>
<marker lat= »-20.53105″ lng= »47.24332″ label= »Ville d’Ambositra » html= »Informations sur la ville d’Ambositra <br>avec la base de données REGARDS-ADES-CNRS » infolink= »query.php?value=Ambositra »/>
<marker lat= »-20.62105″ lng= »47.20332″ label= »Carte de Madagascar » html= »Informations sur la ville d’Ivato <br>avec la base de données REGARDS-ADES-CNRS » infolink= »query.php?value=Ivato+Madagascar »/>
<marker lat= »-19.871795326377995″ lng= »47.03521728515625″ label= »Carte de Madagascar » html= »Informations sur la ville d’Antsirabe <br>avec la base de données REGARDS-ADES-CNRS » infolink= »query.php?value=Antsirabe »/>
<marker lat= »-20.27137605095937″ lng= »44.31661605834961″ label= »Carte de Madagascar » html= »Une carte est disponible » infolink= »?id=R_MADA11_04_00014″/>
<line colour= »#ff0000″ width= »5″>
<point lat= »-19.40″ lng= »45.32″/>
<point lat= »-19.40″ lng= »48.11″/>
<point lat= »-21.20″ lng= »48.11″/>
<point lat= »-21.20″ lng= »45.32″/>
<point lat= »-19.40″ lng= »45.32″/>
</line>
<center lat= »-20.33″ lng= »46.90″ zoom= »8″/>
</markers>

</mygeod>

Ce fichier XML permet de délimiter la couverture de carte et de pointer des lieux (les « markers » de Google Maps). Les attributs sont très simples :

label : titre de la vignette/popup
html : contenu de la vignette/popup
lat : latitude
lng : longitude
zoom (pour <center/>) : facteur du zoom d’entrée dans la carte
infolink : lien vers le connecteur de/des bases de données à interroger (mais on pourrait imaginer une chose avec du xlink et xpointer si l’on veut rester dans le monde XML)

Il suffit d’utiliser de l’API de Google Map pour monter l’application. Mais cela sera pour le prochain billet…

Stéphane.

PS : Le format KML est relativement simple, mais un ouvrage de référence en français manque (à moins qu’il soit sous presse).

Encoder en EAD, EAC et METS avec Daofind/Midosa sous Eclipse 3.2

Bonsoir,
Je travaille depuis quelques semaines avec Midosa editor for XML standards issu du Daofind project. Il s’agit d’un environnement de travail EAD/EAC/METS sous Eclipse 3.2. Développé par les Bundesarchiv (Berlin), Midosa/Daofind permet l’encodage XML avec validation des tags et niveaux en temps réel via le schéma EAD ou METS. Si la prise en main est plus complexe que XMLmind+ATES (mais qui ne fonctionne qu’avec la DTD EAD de 2002), le dico des éléments EAD est très pratique et particulièrement fonctionnel. Ainsi il devient assez simple d’encoder en EAD/EAC et de faire du METS par la suite. Midosa/Daofind est un outil intéressant pour les services d’archives et les personnes souhaitant se lancer dans l’EAD/EAC et la gestion des fichiers METS, avec le guide EAD sous le bras tout de même.
Cerise sur le gâteau, l’export HTML, véritable « impression numérique », transforme un fichier EAD en un instrument de recherche à la mode PLEADE.

METS-ment votre,
Stéphane.

SDX, pleade, EAD, et voila !

Bonjour,
La prochaine ouverture de la nouvelle plateforme de publication d’instruments de recherche en XML EAD du Centre National pour la Numérisation de Sources Visuelle est très proche (dans les jours qui viennent). Utilisant SDX et Pleade, elle permet de publier des inventaires archivisitiques encodés en XML-EAD. Les inventaires déjà réalisés par le CN2SV y sont versés. Pour nous, elle fait partie du bloc « Accès » du modèle OAIS. Mais pour le moment, en avant première, une petite vidéo de démonstration postée sur YouTube. bon, ok, l’image n’est pas très nette, mais cela donne tout de même une idée.

A très bientôt, Stéphane.

EAD, EAC, METS à Berlin

Bonjour,
Pendant 3 jours, la communauté des archivistes s’est réunie à Berlin pour faire le point sur les possibilités et les évolutions des grammaires XML EAD, EAC, et METS. Les présentations furent toutes d’un très haut niveau et elle ont prouvé que les méthodes de communication des archives par voie numérique utilisent de plus en plus le XML. Dans plusieurs cas, elles se rapprochent du modèle OAIS en ce qui touche l’organisation et la gestion des archives numérisées. Le milieu des archivistes a bien compris comment tirer profit de ces DTD et autres schémas. Le projet allemand DAOFIND illustre parfaitement cela. Ce logiciel (qui est un module d’Eclipse) permet de travailler très facilement ces fichiers EAD et METS. Il n’est pas le seul exemple en Europe : Italiens, Français, Espagnols ont aussi de nombreux outils très bien conçus. De plus en plus, la chaîne « tout » EAD voit le jour : inventaires, catalogues, numérisation, encodage se font de façon synchronisée et en simultané ce qui permet d’accélérer la diffusion des archives aux publics.

Stéphane.

METS Navigator : une application web robuste pour la diffusion de documents structurés en METS

Bonjour,

Je profite de quelques jours de vacances à la montagne pour tester – entre deux journées de ski – quelques outils d’exploitation de fichiers xml.

Le problème majeur avec les technologies utilisant xml reste l’exploitation réelle en production des documents. Le passage à la production reste complexe. La mise en ligne d’un document xml nécessite l’emploi d’une feuille de style xsl si l’on veut rendre compréhensible par tous les données contenus dans le dit document. Au plus simple, l’action d’interprétation (le parsage) du xml suivant la feuille de style sera laissée au navigateur web du client avec des différences notoires entre les résultats. Il existe des applications web (programmes informatiques exécutables au travers de serveurs web) qui permettent de traiter cette tache du coté du serveur et donc de rendre homogène le résultat à l’écran et surtout de réduire le temps de parsage pour peut que l’on ait un serveur puissant.

Le service informatique de la bibliothèque numérique de l’Université d’Indiana et la Bibliothèque Lilly de cette même Université viennent de mettre au point l’une de ces applications : METS Navigator. Comme son nom l’indique, cette application permet d’exploiter une collection de fichiers xml respectant le schéma METS. METSNav est une application web fonctionnant sous Tomcat d’apache et Java et dont l’installation est facilitée par la mise à disposition par l’équipe de l’UI d’une archive war permettant un déploiement rapide.

Dans la documentation de METS Nav, l’introduction résume bien le produit :

« METS Navigator is an open source METS-based system for displaying and navigating sets of page images or other multi-part digital objects. METS, the Metadata Encoding and Transmission Standard, is a freely available XML standard, maintained by the Library of Congress, for managing and describing digital library objects. Using the information in the METS elements, METS Navigator builds a hierarchical menu that allows users to navigate to specific sections of a document, such as title page, specific chapters, illustrations, etc. METS Navigator also allows simple navigation to the next, previous, first, and last page image or component part of a digital object. METS Navigator also makes use of the descriptive metadata in the METS document to populate the interface with basic descriptive information about the digital object. METS Navigator is built using Java and open source Web technologies, including the Apache Struts Web Application Framework, the Castor Java & XML Data Binding libraries, and Ant, and runs under a Web application server such as Apache Tomcat. METS Navigator was developed by the Indiana University Digital Library Program. »

Cette application sépare bien la partie programme, les interfaces et la partie « stockage » des fichiers xml qu’il est tout à fait possible de virtualiser à minimal sur une autre machine locale ou dans le même réseau (elle ne va pas aussi loin en matière de virtualisation que l’application créé par le Centre de Ressouces Numériques Telma) mais elle ressemble sur ce plan là, à l’application EXE que nous avons développé avec l’équipe du Centre National pour la Numérisation de Sources Visuelles pour l’exploitation des fichiers xml normalisés en EAD. Il est également très facile de faire sienne cette application, c’est à dire de la mettre en production dans un environnement informatique même restreins : petits services de documentation, de bibliothèques de laboratoires ayant des archives scientifiques, ou même encore services d’archives. « METS Nav. » fonctionne aussi bien avec une architecture Linux ou Windows (avantage du moteur de servlets Tomcat) et semble être très stable. Il y a cependant quelques restrictions au niveau des noeux METS, mais la documentation proposée est très complète.

En conclusion, cette application web me semble très prometteuse pour l’avenir car elle offre un cadre puissant, clair, dans le respect des standards et sous licence propre mais open source. J’ai contacté Mme Michelle Dalmau (une des auteurs de METS Navigator) qui m’a confirmé l’amélioration de l’application dans un futur proche.

Nous le voyons bien, les applications web permettant l’exploitation – en production (voir l’exemple de telma ou du cn2sv) – d’entrepôts xml (stockage distribué ou centralisé, xml natifs ou extractions) donne enfin une nouvelle dimension à la mise à disposition de documents sur le web.

Stéphane.

Ressources : METS Navigator – http://metsnavigator.sourceforge.net/

METS, PREMIS dans des cases

Bonjour,
Got des Petites Cases propose un très bon articles dans son blog sur METS, PREMIS et nos fameux SIP dictés par l’OAIS : j’en profite pour signaler l’atelier technologique du CN2SV (dont je suis le chargé de mission pour le CNRS) qui se tient à Fréjus (Villa Clythia du CAES) à partir de demain (le 16 oct. 2006) et pour trois jours. Nous allons discuté autour de l’EAD, METS, XMP, Archives de scientifiques accessibles via le web (sémantique forcément), etc.
Je file donc à la gare de Lyon…
Stéphane.

Archiver de bases de données factuelles des scientifiques

Bonsoir, L’idée de l’archivage des données des scientifiques du passé et des chercheurs actuels fait son chemin dans les bureaux du CRHST et au sein de l’équipe du CN2SV. Il va nous falloir transmettre aux générations futures les données et leurs clés d’accès. Aujourd’hui la démocratisation du couple MySQL-PHP dans un environnement LAMP permet la création par beaucoup de chercheurs de mini bases de données factuelles. Elles sont très souvant au coeur des processus de recherche. Ils est important d’archiver ces bases en tenant compte de l’environnement technique. Cet archivage doit intégrer à la fois :

les données (sous la forme la plus simple possible : un fichier texte contenant toutes les données « purifiées » de l’environnement de gestion : un .xml ou un .txt tabulé)
les interfaces développés (PHP, Perl, Python, etc.) sous la forme d’une archive .zip, .tar ou .tgz
la modélisation et les commandes SQL (CREATE + INSERT) sous la forme d’un .xml ou .sql

Une initiative du CCSD du CNRS va dans ce sens : l’archive CIEL.

Les principales motivations de ce projet sont :
– “Promouvoir et valoriser les codes de calcul” c’est-à-dire mieux faire connaître les codes de recherche développés dans les laboratoires de recherche et permettre une reconnais- sance aux développeurs de ces codes de la même fa¸con qu’un article dans une revue avec comité de lecture.
– “Pérenniser les codes de calcul” pour parer au problème de la perte de savoir-faire due au départ d’un thésard ou d’un chercheur. C’est également l’un des moyens pour faire connaître l’existence de ce patrimoine scientifique dans notre communauté mais aussi dans le milieu industriel.
– “Assurer la reproductibilité des résultats de publication” pour permettre aux person- nes intéressées par les articles de disposer d’un outil mettant en oeuvre les méthodes proposés et permettant de reproduire les résultats décrits dans l’article. Ainsi, la publication d’un code qui a servi à produire les illustrations d’un papier de sci- ences appliqués accepté dans un journal “classique” va d’une part permettre de “reproduire” les résultats publiés, mais aussi de l’utiliser pour d’autres applications comme n’importe quel résultat théorique issu d’une publication. Par ailleurs, les personnes qui développent des codes de calcul en dehors d’un contexte de publication peuvent trouver ici un outil pour faire con- naitre leurs travaux et valoriser ceux-ci.

Il serait intéressant de concevoir structure d’archivage et de stockage de ces bases de données. Si vous souhaiter participer à ce projet n’hésitez pas à me contacter.

XMP {suite}

La mise en ligne de documents numérique entraîne, outre la question des droits, toutes une série de questions techniques qui sont la plupart du temps le parent pauvre des projets de numérisation et de mise à disposition. Le format IPTC et aujourd’hui le framework XMP permettent, par exemple, d’ajouter des méta-données dans l’image (XMP – eXtensible Metadata Platform – repose sur une version simple de RDF). C’est à dire que les méta-données sont « encapsulées ». Encapsuler…Encapsuler : voici un terme technique qui paraît simple mais qui peut avoir des conséquences sur la pérennité des méta-informations. Le Grand ROBERT de la langue française nous dit :

Encapsuler [ãkapsyle] v.tr. – 1889, Renan, au fig. ; de en-, et capsule. Techn. Enfermer dans un capsule […].

Le fait « d’enfermer » doit attirer l’attention du fournisseur de ressources visuelles (photographiques dans notre exemple) sur la possibilité de « libérer » les méta-données ainsi encapsulés. C’est à dire de pouvoir dans le futur les lire, les exploiter en même temps que l’image, sans avoir de contraintes.
Il est important de ne s’appuyer que sur normes libres (si possible, attention XMP est fortement lié à Adobe Inc. alors que l’IPTC Core est développé par International Press and Telecommunications Council (1965) et succède à l’IPTC « classique »), internationnales et reconnues par les professionels de l’information (iconographes, documentalistes, etc).
Avec un outil simple, tel que PixVue (voir ci-dessus), il est facile à l’aide de la souris et du clavier d’ajouter des « méta » dans une image suivant la norme IPTC.

Bonne fin de semaine,

Stéphane.