sp.Blog

le blog de Stéphane Pouyllau

Étiquette : OAIS

Archive numérique d’Objets et de Matériaux iconographiques

L’annonce faite par Dan Cohen de l’association entre Zotero et Internet Archive pour la création de Zotero Commons (« The Zotero-IA alliance will create a “Zotero Commons” into which scholarly materials can be added simply via the Zotero client. » nous dit Dan Cohen) est très intéressante car elle (re)place les matériaux de recherche (carnets de terrains, carnets de notes, documents numériques, etc.) dans le monde des Archives Ouvertes. Ces dernières prendront peut-être à cette occasion un nouveau sens. Bien sur, il y a plein de problèmes à résoudre dans ce type de projets : la question des droits (cruciale, pour documents visuels dont le statut – à la prise de vue – est souvant flou ou mal défini), l’utilité de proposer tel ou tel document (pertinance), le rôle des intermédiaires ou « rouages classiques » entre les chercheurs, les étudiants et le grand public que sont les bibliothèques et centres de documentation.

Dans mon domaine, les Sciences Humaines et Sociales, les matériaux ayant été utilisés par les chercheurs pour leurs recherche sont très souvant publics, libres de droits ou en passe de le devenir (il suffit de faire de bonne convention avec les institutions dépositaires ou d’attendre…) et donc archivables dans une Archive numérique d’Objets et de Matériaux iconographiques (ou AOMS). C’est ce que nous tentons de construire, du moins de préfigurer avec le Centre National pour la Numérisation de Sources Visuelles et avec le soutien du TGE ADONIS et du département SHS du CNRS. Au CN2SV, nous travaillons avec des bibliothèques, des centres de documentation, des services d’archives autour du thème « archives – recherche – informatisation des données » définie par ma collègue Christine Blondel, historienne des sciences et chercheur au CNRS. Notre plateforme AOMS fonctionne depuis un an.

Ces projets permettront d’accroitre les échanges entre les scientifiques. Ils permettront aussi d’améliorer les méthodes et outils pour la conservation de nos fragiles documents numériques et ils seront les structures de conservation des matériaux des historiens du futur.

Bonne année 2008, à bientôt,

Stéphane.

AOMS : Google et le cycle de vie proposé par le DCC

Bonjour,

La relance du projet Palimpsest par Google a été depuis quelques jours largement commentée dans la blogosphere. Il est intéressant de mettre cela en perspective avec la publication par le Digital Curation Center d’un modèle présentant un cycle de vie des données numérique issues et surtout utiles pour la recherche. C’est deux annonces permette de bien comprendre que stocké n’est pas préservé. Le modèle du DCC propose une chaine complexe – qui s’agira de traduire en français afin d’en diffuser plus largement le contenu – mais nécessaire pour assurer la conservation numérique. Ce modèle est intéressant car il pose les questions hors des questions de stockage physique qui monopolises généralement les équipes de recherche (et les chercheurs isolés) qui n’ont que très rarement dans leurs équipes un bon gestionnaire IST (documentaliste, bibliothécaire ayant une spécialité en matière de numérique). Il faut promouvoir ce type de modèles/schémas, les présenter dans les formations (IUT, Universités, etc.) et faire des mises en application dans les projets de recherche actuels. Les Centres de Ressources numériques TELMA, CRDO et CN2SV, créés par le CNRS en 2005, organiseront en oct. 2008 une Ecole Thématique sur ce sujet avec le soutien du très grand équipement ADONIS.

Stéphane.

SDX, pleade, EAD, et voila !

Bonjour,
La prochaine ouverture de la nouvelle plateforme de publication d’instruments de recherche en XML EAD du Centre National pour la Numérisation de Sources Visuelle est très proche (dans les jours qui viennent). Utilisant SDX et Pleade, elle permet de publier des inventaires archivisitiques encodés en XML-EAD. Les inventaires déjà réalisés par le CN2SV y sont versés. Pour nous, elle fait partie du bloc « Accès » du modèle OAIS. Mais pour le moment, en avant première, une petite vidéo de démonstration postée sur YouTube. bon, ok, l’image n’est pas très nette, mais cela donne tout de même une idée.

A très bientôt, Stéphane.

EAD, EAC, METS à Berlin

Bonjour,
Pendant 3 jours, la communauté des archivistes s’est réunie à Berlin pour faire le point sur les possibilités et les évolutions des grammaires XML EAD, EAC, et METS. Les présentations furent toutes d’un très haut niveau et elle ont prouvé que les méthodes de communication des archives par voie numérique utilisent de plus en plus le XML. Dans plusieurs cas, elles se rapprochent du modèle OAIS en ce qui touche l’organisation et la gestion des archives numérisées. Le milieu des archivistes a bien compris comment tirer profit de ces DTD et autres schémas. Le projet allemand DAOFIND illustre parfaitement cela. Ce logiciel (qui est un module d’Eclipse) permet de travailler très facilement ces fichiers EAD et METS. Il n’est pas le seul exemple en Europe : Italiens, Français, Espagnols ont aussi de nombreux outils très bien conçus. De plus en plus, la chaîne « tout » EAD voit le jour : inventaires, catalogues, numérisation, encodage se font de façon synchronisée et en simultané ce qui permet d’accélérer la diffusion des archives aux publics.

3eme conférence sur l'EAD, l'EAC et METS - Berlin

Stéphane.

Archives scientifiques, instruments de recherche XML et virtualisation des données

Bonjour,
L’utilisation de la DTD, puis maintenant du schéma Encoded Archival Description ou EAD permet de réaliser une version numérique d’un inventaire archivistique. L’inventaire (qui lui doit respecter la norme ISAg de l’ICA) est à l’archiviste ce que la base bibliographique est au bibliothécaire, c’est à dire la pièce maitresse avant toute diffusion d’un fonds. Sans inventaire, pas de communication du fonds d’archive. C’est particulièrement vrai – et important – avec les archives de science et les fonds d’archives de savants (au sens XIXe siècle du terme) et de chercheurs. L’inventaire peut être réalisé sous un simple éditeur de texte (MSWord, Open Office Writer, etc.) mais aujourd’hui, il est mieux de le réaliser en XML en suivant le schéma EAD. (ex. DTD datant de 2002). L’encodage en EAD, permet de créer un fichier XML composé de deux grandes parties :

  • • le header : l’entete du document avec les descriptions du fonds
  • • le archdesc : la presentation des niveaux : du fonds jusqu’à la pièce (item), c’est à dire le document lui-même (la photo, le cahier de notes, etc.)

L’encodage EAD peut-être réalisé dans logiciel d’encodage XML tel que XMetal (payant) ou XMLmind (gratuit). XMLmind est particulièrement intéressant car l’on peut y ajouter des feuilles de style XSL permettant de travailler très simplement via des formulaires de saisie de type « pages web » (voir le système ATES). Une fois l’encodage XML réalisé, il faut différencier le stockage des fichiers XML+les documents numériques qui y sont associés d’exploitation que l’utilisateur peut en faire. D’une part, il faut mettre en place un système de gestion qui assure la pérennité des données (transformations des formats images, suivit de l’évolution des DTD et des schémas XML, suivit juridique de la communicabilité, etc.) et d’autre part une plateforme qui permet la diffusion, via des applications (qui peuvent être multiples), de ces fichiers XML encodés suivant la DTD ou le schéma EAD. Les fichiers EAD deviennent alors des instruments de recherche dans les fonds d’archives. Dans l’application du modèle OAIS, la pérennité des données est une chose, l’exploitation des données en est une autre. Les images et fichier EAD peuvent être sur un serveurs dédié, les applications sur un autre (avec derrière une belle équipe d’ingénieur système) : c’est la virtualisation des données. Le tout fonctionne car l’ensemble des briques (stockage, exploitation, diffusion) respecte des règles communes : c’est le modèle OAIS.

Bonne fin de semaine,

Stéphane.

USBDS : Unité de Stockage des Bases de Données Scientifiques

Bonsoir,

Toujours dans mes réflexions sur le stockage et l’archivage des bases de données scientifiques des chercheurs de mon équipe, je travaille sur la mise en place d’une USBDS (Unité de Stockage des Bases de Données Scientifiques) autour d’un schéma XML. L’idée est partie d’un problème semble, un serveur web contenant des bases de données avec interface de gestion et d’interrogation n’est pas éternel.

Il faut donc une unité de stockage et d’archivage des bases de données scientifique ou les chercheurs et ingénieurs pourraient déposer outre les données au format natif de leurs bases (.sql par exemple) mais aussi un fichier XML respectant mon schéma XML et décrivant l’application et la base de données (format, système, etc.).

Tout cela pour ne plus perdre des données, des heures de travail, et des pratiques. Suite… au prochain épisode.

Stéphane.

Archiver de bases de données factuelles des scientifiques

Bonsoir, L’idée de l’archivage des données des scientifiques du passé et des chercheurs actuels fait son chemin dans les bureaux du CRHST et au sein de l’équipe du CN2SV. Il va nous falloir transmettre aux générations futures les données et leurs clés d’accès. Aujourd’hui la démocratisation du couple MySQL-PHP dans un environnement LAMP permet la création par beaucoup de chercheurs de mini bases de données factuelles. Elles sont très souvant au coeur des processus de recherche. Ils est important d’archiver ces bases en tenant compte de l’environnement technique. Cet archivage doit intégrer à la fois :

  • les données (sous la forme la plus simple possible : un fichier texte contenant toutes les données « purifiées » de l’environnement de gestion : un .xml ou un .txt tabulé)
  • les interfaces développés (PHP, Perl, Python, etc.) sous la forme d’une archive .zip, .tar ou .tgz
  • la modélisation et les commandes SQL (CREATE + INSERT) sous la forme d’un .xml ou .sql

Une initiative du CCSD du CNRS va dans ce sens : l’archive CIEL.

Les principales motivations de ce projet sont :
– “Promouvoir et valoriser les codes de calcul” c’est-à-dire mieux faire connaître les codes de recherche développés dans les laboratoires de recherche et permettre une reconnais- sance aux développeurs de ces codes de la même fa¸con qu’un article dans une revue avec comité de lecture.
– “Pérenniser les codes de calcul” pour parer au problème de la perte de savoir-faire due au départ d’un thésard ou d’un chercheur. C’est également l’un des moyens pour faire connaître l’existence de ce patrimoine scientifique dans notre communauté mais aussi dans le milieu industriel.
– “Assurer la reproductibilité des résultats de publication” pour permettre aux person- nes intéressées par les articles de disposer d’un outil mettant en oeuvre les méthodes proposés et permettant de reproduire les résultats décrits dans l’article. Ainsi, la publication d’un code qui a servi à produire les illustrations d’un papier de sci- ences appliqués accepté dans un journal “classique” va d’une part permettre de “reproduire” les résultats publiés, mais aussi de l’utiliser pour d’autres applications comme n’importe quel résultat théorique issu d’une publication. Par ailleurs, les personnes qui développent des codes de calcul en dehors d’un contexte de publication peuvent trouver ici un outil pour faire con- naitre leurs travaux et valoriser ceux-ci.

Il serait intéressant de concevoir structure d’archivage et de stockage de ces bases de données. Si vous souhaiter participer à ce projet n’hésitez pas à me contacter.

Fièrement propulsé par WordPress & Thème par Anders Norén