sp.Blog

le blog de Stéphane Pouyllau

Catégorie : archives numériques (Page 1 sur 3)

Hypotheses.org et MédiHAL : l’embarquement des images

Bonjour,
Il y a longtemps que je voulais faire une petite vidéo d’écran pour montrer comment « embarquer » – c’est le terme consacré – une photographique numérique déposée dans MédiHAL (réalisée par le centre pour la communication scientifique directe) dans une plateforme d’édition électronique telle que hypotheses.org (réalisée par le centre pour l’édition électronique ouverte). Comme, je suis en congés, j’ai pris le temps de la faire hier soir. Elle inaugure une nouvelle série de billet de ce blog, les « vidéos pédagogiques de pouyllau » qui auront vocation de montrer qu’il est possible d’articuler les plateformes web entre elles afin de proposer des contenus, articles, des données< riches, etc en exploitant les possibilités de partage, API, etc. de ces dernières. Cela dit, je signale d'ailleurs qu'il existe un carnet de recherche sur hypotheses.org qui regroupe des conseils d'utilisation, annonces, autour de la plateforme hypotheses : c'est la maison des carnets. Vous y trouverez une vidéo similaire présentant comment « embarquer » des données venant d’Archive.org, Youtube, etc. MédiHAL, archive ouverte publique, archivée au CINES, présente l’intérêt d’être une plateforme ouverte, proposant plusieurs services de valorisation des fonds photographiques qui y sont déposés : les collections de MédiHAL en particulier.

Sur cela, je vous laisse visionner le tutoriel :

A bientôt pour une prochaine vidéo.

Stéphane.

Le meilleur format de conservation des données numériques, c’est vous.

Got vient de publier un billet très intéressant sur le fait que la notion de format pérenne ne veut rien dire. Je suis entièrement d’accord et nous sommes plusieurs ingénieurs, dans les sciences humaines et sociales numériques, à partager cet avis. L’information, encodée dans un fichier numérique, est dépendante de la structure du format, de ses spécifications, des logiciels capables de lire ce format et d’offrir ainsi « une vue », à un instant T, sur l’information. Faire de l’édition en ligne, diffuser des données, nécessite d’être conscient de fragilité des formats dans le temps. Il est facile de l’être pour qui a déjà perdu des données importantes.
Cela dit, j’irai plus loin que Got.
Dans un cas extrême, un format ouvert, mais mal documenté ou dont la documentation n’a pas été bien maintenue dans le temps, peut être plus complexe à migrer qu’un format propriétaire. Pourtant les formats propriétaires sont liés au cycle de vie de plus en plus court des versions de leurs logiciels « maitres ». S’il est aujourd’hui possible de migrer, sans trop de problème, un fichier propriétaire de la version N à N+1 de son logiciel « maitre », il souvent difficile de faire du N+3 ou 4. Également, certains types de formats sont encore trop propriétaires : c’est le cas des fichiers 3D. Si le VRML, et son « successeur » le X3D sont ouverts et normalisés, ces formats n’occupent pas réellement la place de « format pivots », éligibles à un archivage à long terme de type OAIS : ils sont considérés comme « trop pauvres » par les modeleurs que les format 3D propriétaires de type .max de 3DS max pour cela. Il est d’ailleurs curieux que le VRML et le X3D soient vus comme des formats pivots alors qu’ils n’ont pas été créés pour cela. Souvent, des collègues non spécialistes me dise : « on fera une sortie VRML pour sauvegarde » : sont-ils conscient de l’appauvrissement de l’information entre un fichier max et VRML ? Les travaux du centre de ressources ArchéoVision du CNRS, dirigé par Robert Vergnieux, éclairera ces questions dans les années qui viennent par la création du conservatoire des données 3D du patrimoine.

Formats ouverts, formats propriétaires… maintenir l’accès à l’information est avant tout une histoire de veille technologique humaine et de conseils aux utilisateurs et aux décideurs. Il est aussi important de dire clairement pourquoi un format ouvert peut être, à un moment de son évolution, moins bon pour l’archivage numérique à long terme. Un format bien documenté ne sert a rien si personne n’en suit les évolutions et les usages. Il faut des équipes qui « suivent » les choses dans le temps : l’archivage à long terme des données déposés dans HAL a mobilisé plusieurs équipes formées d’archivistes, d’informaticiens, de chercheurs en amont même !

Ainsi, le meilleur « format » numérique de conservation ne sert-il pas l’humain ?

Stéphane.

Des données brutes 2.0

L’administration Américaine a lancé data.gov : une plateforme d’accès aux données brutes de la santé, l’environnement, l’énergie, recherche, éducation. C’est très (trop?) ambitieux, voir utopique (mais il s’agit des USA) et d’ailleurs cet avis est partagé. Mais l’initiative est là et la plateforme déjà en ligne : il s’agit d’un projet hybride entre archives, recherche et accès. Ce projet, une récente discussion avec Got, croisée d’une journée avec les collègues du Centre de calcul de l’IN2P3-CNRS (qui héberge beaucoup de données issues des SHS), m’a conforté sur la notion et la nécessité de réservoirs de données brutes pour la recherche en SHS.

Ces réservoirs existent aujourd’hui dans les laboratoires de SHS, mais les données qu’ils contiennent sont souvent encore perçues comme des données « privés », réservées aux chercheurs locaux. Il est vrai qu’ils les ont collectées ou générées et ce travail n’est pas réellement reconnu dans le parcours d’un chercheur alors qu’il est fondamental. Ces données « pour la recherche » ont donc souvent tendance à « mourir » au fond de nos disques durs faut d’une infrastructure double : archivage des données (pour l’histoire), diffusion des données « brutes » et pas forcement éditorialisées dans une publication électronique académique mais mise à disposition de la communauté scientifique comportant un minimum d’appareil éditorial basé sur le Dublin Core Terms par exemple.  D’autant que souvent, ces données ont été collectées ou générées sur fonds publics (ne serait ce que le salaire du chercheur).

Bien sur, il faut pondérer ici le fait que certaines données sont sensibles de part leur nature et que la mise à disposition ou la diffusion est complexe et nécessite des barrières mobiles parfois très longues.

En france, il existe des initiatives intéressantes, encore trop peu soutenues financièrement, mais cela avance, cela se structure et des formations, pour les chercheurs et enseignants-chercheurs, voient le jour tel que l’université d’été de l’édition scientifique ouverte, qui aura lieu en septembre 2009, ou bien l’école thématique des centres nationaux de ressources numériques du CNRS dont le wiki est en ligne avec toutes les communications, les bibliographies numériques, en ligne, etc.

Alors, en ce mois de juillet, j’ai envie de dire : « ouvrez vos données à vos collègues et au monde » et j’espère aussi, soyons fou, un donnees.gouv.fr ?

Il est temps, dirons certains, que je parte en vacances.

Stéphane.

Bibnum : une bibliothèque numérique et virtuelle des textes fondateurs de la science

Bonsoir,

Notre collègue, Alexandre Moatti, vient de lancer la bibliothèque numérique bibnum qui se positionne sur la mise à disposition des principaux textes scientifique antérieurs à 1940 pour un large public (mais aussi pour les étudiants et les scientifiques). Ces textes fondateurs pour la science, sont tous accompagnés d’un commentaires écrit par des scientifiques actuels. Comme l’annonce l’édito du site les textes sont  « commentés par des scientifiques contemporains qui souhaitent partager leur intérêt pour ces textes et analysent leur impact dans la science et la technologie actuelle ».

Dans la consultation, la navigation par onglet permet, très clairement, de passer du texte au commentaire, une bibliographie et une webographie sont toujours associées aux textes édités. Un vrai beau travail mariant la documentation, l’édition, la science et l’histoire.

Utilisant la technologie « ipaper » issue du projet scribd.com, très belle, rapide, encapsulable, il est également possible d’avoir les références bibliographiques (du texte et du commentaire) dans un format « zotero compatible », en XML et au format BibTex. L’embedding est un classique maintenant.

Il est un peu dommage que les textes, disponible en PDF « cherchable » (image sur texte, mais assez dont l’assemblage est assez curieux), ne soient pas également disponibles dans un format « ouvert » (XML balisé selon la TEI par exemple) au téléchargement. A suivre…

Stéphane.

Le recensement canadien de 1881 en ligne

Bonjour,

La bibliothèque et les archives du Canada (BAC) ont ouvert le 6 août 2008 un site permettant l’accès aux données du recensement canadien de 1881. Les données du recensement, qui offrent une véritable photographie de la vie au Canada en 1881, sont à la fois disponibles au travers d’une base de données textuelle (avec un formulaire de recherche très complet, voir complexe, mais très intéressant pour les généalogistes) et sous la forme d’images JPEG (de bonne qualité) ou de fichiers PDF présentant les données originales (visiblement numérisées depuis un micro-film).

L’interface est très simple, très clair et très bien documenté ce qui facilite les recherches. Il est dommage d’un système de panier, permettant de conserver ces recherches pour le temps d’une session, ne soit pas proposé. Cependant, cet outil – en français et en anglais – est une très belle réalisation et il enchantera les chercheurs et les généalogistes. L’utilisation des images semble libre – pour une utilisation recherche ? – puisqu’il est proposé :
« Vous pouvez imprimer les images ou les sauvegarder sur votre ordinateur. Utilisez le lien suivant pour accéder à d’autres options, telles qu’emprunter des microfilms. »

Sans tomber dans la surenchère technologique, ce site illustre, avec tous ceux déjà réalisés par ces deux institutions, l’importance future de ces réservoirs de données pour les digitals humanities dans le monde.

Stéphane

Archive numérique d’Objets et de Matériaux iconographiques

L’annonce faite par Dan Cohen de l’association entre Zotero et Internet Archive pour la création de Zotero Commons (« The Zotero-IA alliance will create a “Zotero Commons” into which scholarly materials can be added simply via the Zotero client. » nous dit Dan Cohen) est très intéressante car elle (re)place les matériaux de recherche (carnets de terrains, carnets de notes, documents numériques, etc.) dans le monde des Archives Ouvertes. Ces dernières prendront peut-être à cette occasion un nouveau sens. Bien sur, il y a plein de problèmes à résoudre dans ce type de projets : la question des droits (cruciale, pour documents visuels dont le statut – à la prise de vue – est souvant flou ou mal défini), l’utilité de proposer tel ou tel document (pertinance), le rôle des intermédiaires ou « rouages classiques » entre les chercheurs, les étudiants et le grand public que sont les bibliothèques et centres de documentation.

Dans mon domaine, les Sciences Humaines et Sociales, les matériaux ayant été utilisés par les chercheurs pour leurs recherche sont très souvant publics, libres de droits ou en passe de le devenir (il suffit de faire de bonne convention avec les institutions dépositaires ou d’attendre…) et donc archivables dans une Archive numérique d’Objets et de Matériaux iconographiques (ou AOMS). C’est ce que nous tentons de construire, du moins de préfigurer avec le Centre National pour la Numérisation de Sources Visuelles et avec le soutien du TGE ADONIS et du département SHS du CNRS. Au CN2SV, nous travaillons avec des bibliothèques, des centres de documentation, des services d’archives autour du thème « archives – recherche – informatisation des données » définie par ma collègue Christine Blondel, historienne des sciences et chercheur au CNRS. Notre plateforme AOMS fonctionne depuis un an.

Ces projets permettront d’accroitre les échanges entre les scientifiques. Ils permettront aussi d’améliorer les méthodes et outils pour la conservation de nos fragiles documents numériques et ils seront les structures de conservation des matériaux des historiens du futur.

Bonne année 2008, à bientôt,

Stéphane.

Guides pour réussir une numérisation

Je ne le répèterai assez jamais, mais l’informatisation des données ne se réduit pas uniquement à la numérisation de documents. Cependant, la numérisation – qui semble être un acte banal aujourd’hui pour beaucoup de monde – est une étape importante dans un projet. Toute numérisation doit d’appuyer sur la rédaction d’un cahier des charges. Les Archives de France proposent, en ligne, un guide technique très complet qui peut aider dans une telle rédaction (même si ce guide est très administratif sur le plan de la terminologie). Florence Clavaud (Directrice des nouvelles technologies et de l’informatique à l’Ecole nationale des Chartes) a réalisé, dans le cadre du centre de ressources TELMA et pour le Très grand équipement ADONIS, un guide des bonnes pratiques de numérisation et d’informatisation des données rapide à lire. J’encourage tout le monde à lire ces documents avant de ce lancer dans un projet de numérisation de corpus iconographiques (dans le cadre d’un projet ANR par exemple).

Stéphane.

1er mai

Bonjour et bon 1er mai !

C’est le début des ponts : période plus calme qui permet d’explorer quelques nouvelles technologies et outils. Je teste depuis quelques jours PLEADE3, outil de publication d’inventaires d’archives encodés selon le schéma XML EAD. Si la version 3.0 comporte encore quelques lacunes et bugs gênants (problème autour des accents sous Tomcat, par exemple), les progrès par rapport à la v2.x sont majeurs : c’est un autre monde. Il est cependant dommage que pour un logiciel open source, les auteurs n’aient pas prévu une documentation digne de ce nom (pour ne pas favoriser la concurrence selon AJLSM qui produit PLEADE). Peut-être la communauté PLEADE produira elle-même une documentation « non-officelle » sous la forme d’un wiki par exemple.

Pour ceux qui recherche un outil multi-plateformes (Windows, Linux, Mac) permettant la mise en ligne d’inventaire EAD, je vous conseille vivement de tester PLEADE3.

bon 1er mai,

Stéphane.

AOMS : Google et le cycle de vie proposé par le DCC

Bonjour,

La relance du projet Palimpsest par Google a été depuis quelques jours largement commentée dans la blogosphere. Il est intéressant de mettre cela en perspective avec la publication par le Digital Curation Center d’un modèle présentant un cycle de vie des données numérique issues et surtout utiles pour la recherche. C’est deux annonces permette de bien comprendre que stocké n’est pas préservé. Le modèle du DCC propose une chaine complexe – qui s’agira de traduire en français afin d’en diffuser plus largement le contenu – mais nécessaire pour assurer la conservation numérique. Ce modèle est intéressant car il pose les questions hors des questions de stockage physique qui monopolises généralement les équipes de recherche (et les chercheurs isolés) qui n’ont que très rarement dans leurs équipes un bon gestionnaire IST (documentaliste, bibliothécaire ayant une spécialité en matière de numérique). Il faut promouvoir ce type de modèles/schémas, les présenter dans les formations (IUT, Universités, etc.) et faire des mises en application dans les projets de recherche actuels. Les Centres de Ressources numériques TELMA, CRDO et CN2SV, créés par le CNRS en 2005, organiseront en oct. 2008 une Ecole Thématique sur ce sujet avec le soutien du très grand équipement ADONIS.

Stéphane.

Netscape, 1994-2008

Bonsoir,

En cette fin d’année 2007, nous apprenons la fin officielle du support de Netscape au 1er février 2008. Netscape, né en 1994, est le premier navigateur web digne de ce nom pour la première génération des internautes. Je me souviens des premières heures du HTML, du javascript d’avant l’AJAX et du « N » bleu qui « dansait » dans le coin de Netscape 1.0.

netscape.jpg

En fait, Netscape se retire au profit de Mozilla, fondation dans laquelle Netscape est partenaire, et donc la suite de Netscape est un peu Firefox. Bye bye, Netscape et merci.

Stéphane.

Page 1 sur 3

Fièrement propulsé par WordPress & Thème par Anders Norén