OAIS – Archives du blog de Stéphane Pouyllau

Archive numérique d’Objets et de Matériaux iconographiques

L’annonce faite par Dan Cohen de l’association entre Zotero et Internet Archive pour la création de Zotero Commons (« The Zotero-IA alliance will create a “Zotero Commons” into which scholarly materials can be added simply via the Zotero client. » nous dit Dan Cohen) est très intéressante car elle (re)place les matériaux de recherche (carnets de terrains, carnets de notes, documents numériques, etc.) dans le monde des Archives Ouvertes. Ces dernières prendront peut-être à cette occasion un nouveau sens. Bien sur, il y a plein de problèmes à résoudre dans ce type de projets : la question des droits (cruciale, pour documents visuels dont le statut – à la prise de vue – est souvant flou ou mal défini), l’utilité de proposer tel ou tel document (pertinance), le rôle des intermédiaires ou « rouages classiques » entre les chercheurs, les étudiants et le grand public que sont les bibliothèques et centres de documentation.

Dans mon domaine, les Sciences Humaines et Sociales, les matériaux ayant été utilisés par les chercheurs pour leurs recherche sont très souvant publics, libres de droits ou en passe de le devenir (il suffit de faire de bonne convention avec les institutions dépositaires ou d’attendre…) et donc archivables dans une Archive numérique d’Objets et de Matériaux iconographiques (ou AOMS). C’est ce que nous tentons de construire, du moins de préfigurer avec le Centre National pour la Numérisation de Sources Visuelles et avec le soutien du TGE ADONIS et du département SHS du CNRS. Au CN2SV, nous travaillons avec des bibliothèques, des centres de documentation, des services d’archives autour du thème « archives – recherche – informatisation des données » définie par ma collègue Christine Blondel, historienne des sciences et chercheur au CNRS. Notre plateforme AOMS fonctionne depuis un an.

Ces projets permettront d’accroitre les échanges entre les scientifiques. Ils permettront aussi d’améliorer les méthodes et outils pour la conservation de nos fragiles documents numériques et ils seront les structures de conservation des matériaux des historiens du futur.

Bonne année 2008, à bientôt,

Stéphane.

AOMS : Google et le cycle de vie proposé par le DCC

Bonjour,

La relance du projet Palimpsest par Google a été depuis quelques jours largement commentée dans la blogosphere. Il est intéressant de mettre cela en perspective avec la publication par le Digital Curation Center d’un modèle présentant un cycle de vie des données numérique issues et surtout utiles pour la recherche. C’est deux annonces permette de bien comprendre que stocké n’est pas préservé. Le modèle du DCC propose une chaine complexe – qui s’agira de traduire en français afin d’en diffuser plus largement le contenu – mais nécessaire pour assurer la conservation numérique. Ce modèle est intéressant car il pose les questions hors des questions de stockage physique qui monopolises généralement les équipes de recherche (et les chercheurs isolés) qui n’ont que très rarement dans leurs équipes un bon gestionnaire IST (documentaliste, bibliothécaire ayant une spécialité en matière de numérique). Il faut promouvoir ce type de modèles/schémas, les présenter dans les formations (IUT, Universités, etc.) et faire des mises en application dans les projets de recherche actuels. Les Centres de Ressources numériques TELMA, CRDO et CN2SV, créés par le CNRS en 2005, organiseront en oct. 2008 une Ecole Thématique sur ce sujet avec le soutien du très grand équipement ADONIS.

Stéphane.

SDX, pleade, EAD, et voila !

Bonjour,
La prochaine ouverture de la nouvelle plateforme de publication d’instruments de recherche en XML EAD du Centre National pour la Numérisation de Sources Visuelle est très proche (dans les jours qui viennent). Utilisant SDX et Pleade, elle permet de publier des inventaires archivisitiques encodés en XML-EAD. Les inventaires déjà réalisés par le CN2SV y sont versés. Pour nous, elle fait partie du bloc « Accès » du modèle OAIS. Mais pour le moment, en avant première, une petite vidéo de démonstration postée sur YouTube. bon, ok, l’image n’est pas très nette, mais cela donne tout de même une idée.

A très bientôt, Stéphane.

EAD, EAC, METS à Berlin

Bonjour,
Pendant 3 jours, la communauté des archivistes s’est réunie à Berlin pour faire le point sur les possibilités et les évolutions des grammaires XML EAD, EAC, et METS. Les présentations furent toutes d’un très haut niveau et elle ont prouvé que les méthodes de communication des archives par voie numérique utilisent de plus en plus le XML. Dans plusieurs cas, elles se rapprochent du modèle OAIS en ce qui touche l’organisation et la gestion des archives numérisées. Le milieu des archivistes a bien compris comment tirer profit de ces DTD et autres schémas. Le projet allemand DAOFIND illustre parfaitement cela. Ce logiciel (qui est un module d’Eclipse) permet de travailler très facilement ces fichiers EAD et METS. Il n’est pas le seul exemple en Europe : Italiens, Français, Espagnols ont aussi de nombreux outils très bien conçus. De plus en plus, la chaîne « tout » EAD voit le jour : inventaires, catalogues, numérisation, encodage se font de façon synchronisée et en simultané ce qui permet d’accélérer la diffusion des archives aux publics.

Stéphane.

Archiver de bases de données factuelles des scientifiques

Bonsoir, L’idée de l’archivage des données des scientifiques du passé et des chercheurs actuels fait son chemin dans les bureaux du CRHST et au sein de l’équipe du CN2SV. Il va nous falloir transmettre aux générations futures les données et leurs clés d’accès. Aujourd’hui la démocratisation du couple MySQL-PHP dans un environnement LAMP permet la création par beaucoup de chercheurs de mini bases de données factuelles. Elles sont très souvant au coeur des processus de recherche. Ils est important d’archiver ces bases en tenant compte de l’environnement technique. Cet archivage doit intégrer à la fois :

les données (sous la forme la plus simple possible : un fichier texte contenant toutes les données « purifiées » de l’environnement de gestion : un .xml ou un .txt tabulé)
les interfaces développés (PHP, Perl, Python, etc.) sous la forme d’une archive .zip, .tar ou .tgz
la modélisation et les commandes SQL (CREATE + INSERT) sous la forme d’un .xml ou .sql

Une initiative du CCSD du CNRS va dans ce sens : l’archive CIEL.

Les principales motivations de ce projet sont :
– “Promouvoir et valoriser les codes de calcul” c’est-à-dire mieux faire connaître les codes de recherche développés dans les laboratoires de recherche et permettre une reconnais- sance aux développeurs de ces codes de la même fa¸con qu’un article dans une revue avec comité de lecture.
– “Pérenniser les codes de calcul” pour parer au problème de la perte de savoir-faire due au départ d’un thésard ou d’un chercheur. C’est également l’un des moyens pour faire connaître l’existence de ce patrimoine scientifique dans notre communauté mais aussi dans le milieu industriel.
– “Assurer la reproductibilité des résultats de publication” pour permettre aux person- nes intéressées par les articles de disposer d’un outil mettant en oeuvre les méthodes proposés et permettant de reproduire les résultats décrits dans l’article. Ainsi, la publication d’un code qui a servi à produire les illustrations d’un papier de sci- ences appliqués accepté dans un journal “classique” va d’une part permettre de “reproduire” les résultats publiés, mais aussi de l’utiliser pour d’autres applications comme n’importe quel résultat théorique issu d’une publication. Par ailleurs, les personnes qui développent des codes de calcul en dehors d’un contexte de publication peuvent trouver ici un outil pour faire con- naitre leurs travaux et valoriser ceux-ci.

Il serait intéressant de concevoir structure d’archivage et de stockage de ces bases de données. Si vous souhaiter participer à ce projet n’hésitez pas à me contacter.