Bibnum : une bibliothèque numérique et virtuelle des textes fondateurs de la science

Bonsoir,

Notre collègue, Alexandre Moatti, vient de lancer la bibliothèque numérique bibnum qui se positionne sur la mise à disposition des principaux textes scientifique antérieurs à 1940 pour un large public (mais aussi pour les étudiants et les scientifiques). Ces textes fondateurs pour la science, sont tous accompagnés d’un commentaires écrit par des scientifiques actuels. Comme l’annonce l’édito du site les textes sont  « commentés par des scientifiques contemporains qui souhaitent partager leur intérêt pour ces textes et analysent leur impact dans la science et la technologie actuelle ».

Dans la consultation, la navigation par onglet permet, très clairement, de passer du texte au commentaire, une bibliographie et une webographie sont toujours associées aux textes édités. Un vrai beau travail mariant la documentation, l’édition, la science et l’histoire.

Utilisant la technologie « ipaper » issue du projet scribd.com, très belle, rapide, encapsulable, il est également possible d’avoir les références bibliographiques (du texte et du commentaire) dans un format « zotero compatible », en XML et au format BibTex. L’embedding est un classique maintenant.

Il est un peu dommage que les textes, disponible en PDF « cherchable » (image sur texte, mais assez dont l’assemblage est assez curieux), ne soient pas également disponibles dans un format « ouvert » (XML balisé selon la TEI par exemple) au téléchargement. A suivre…

Stéphane.

digital humanities : le tournant et la eSHSgrid

L’école thématique sur la préservation et diffusion numériques des sources de la recherche en sciences humaines et sociales, organisée par les centres de ressources numériques du CNRS propose une formation aux humantiés numériques (digital humanities) en matière d’édition de sources pour la recherche scientifique en sciences humaines et sociales. Les 30 personnes qui sont ici suivent plusieurs ateliers sur l’informatisation des données manuscrites, iconographiques, orales.

La communauté des digitals humanities se structure, se parle, travaille. La mise en ligne de collections iconographies, la création d’entrepôts de données « images » et « visuelles » (y compris les modèles 3D) n’est plus envisagé sans la structuration de l’information : fichiers RAW, fichiers TIF, vignettes à la volée en JPEG, calculateurs de rendu, métadonnées XMP (ou encore en IPTC), EXIF, MIX, METS, DC. Belle avancée ! Les choses doivent encore se préciser mais le numérique est aujourd’hui au cœur d’un très grand nombre , c’est le « digital turn » ou tournant digital proposé par Paul Bertrand. Les sources numérisées vont laisser la place – de plus en plus – aux sources numériques structurées, c’est aujourd’hui une quasi-réalité et presque du passé et le XML, les normes, l’open-source sont au coeur du digital turn. Un e-chercheur sera l’utilisateur de ces corpus hybrides structurés, virtualisés, accessibles à tous les chercheurs au travers, tel les données du LHC, d’une eSHSgrid et constitué, non pas pour une utilisation individuelle, mais génératrice de publications multiples, papiers, mais aussi de plus en plus elles-mêmes électroniques. Cette eSHSgrid garantie le socle d’accessibilité aux données.

Le wiki de l’Ecole est actualisé en permanance par les participants.

Stéphane.

Dublin Core 2008 à Berlin

Le DC2008, organisé par le Competence Centre for Interoperable Metadata (KIM), le Max Planck Digital Library (MPDL), la Göttingen State and University Library (SUB), la German National Library (DNB), Humboldt Universität zu Berlin (HU Berlin) et le Dublin Core Metadata Initiative avec le concours de Wikimedia Deutschland, a permis de faire un panorama complet des utilisations possibles des deux jeux principaux de méta-données Dublin Core (simple et qualifié). Plusieurs projets, issus principalement des communautés scientifiques, de celles des musées et du monde des bibliothèques (nationales ou universitaires) ont été présentés sous la forme de séances plénières, de workshops et de posters.

Après première journée dédiée à des d’ateliers d’introduction allant de l’histoire du DC, à la présentation de la mise en pratique du DC, les sessions plénières des mardi, mercredi, et jeudi ont permis de voir que le DC est aujourd’hui au coeur des outils d’inter-opérabilités développés par les producteurs de données que sont les grandes bibliothèques et le monde universitaire principalement. A plusieurs reprise, le DC a été mentionné comme étant le ciment permettant de mettre en oeuvre les échanges de méta-données, la communication de ces dernières et ceci à très grande échelle : pour des réservoirs ayant plusieurs centaines de milliers d’enregistrements. Le DC qualifié semble de plus en plus concurrencer le MARC par exemple : il est presque devenu natif dans les applications de gestion des bibliothèques.

Le DC est également au centre des problématiques du web sémantique. Plusieurs présentations sur ce sujet (principalement venant des USA) ont eu lieu et ont démontré que le web sémantique doit, pour ce développer, s’appuyer sur des technologies et méthode tel que le RDF associé au DC. Dans la construction des outils – et méthodes – du web sémantique le DC occupe une place importante car il agit comme un point de référence, une brique fondamentale de ce très grand chantier. Cependant, peu d’applications fonctionnelles ont été présentées et certains projets sont encore très expérimentaux.

On peut noter une forte progression de l’utilisation du DC dans les applications du web social et dans les applications web professionnelles. Le DC est de plus en plus couplé aux systèmes utilisant le RDF, le RDFa et dans sa sous-branche : le FOAF, etc.. Un doute subsiste cependant quant au retour sur investissement et sur la qualité en matière d’indexation collaborative grand public de corpus iconographique (ex. du SFMOMA : www.sfmoma.org).

Le développement du DC dans les années qui viennent suivra l’évolution des méta-langages que sont le RDF et toutes ces déclinaisons. Le vecteur OAI-PMH est aussi fortement mentionné par les utilisateur du DC.

Le DC s’impose dans les grands catalogues internationaux et dans les protocoles d’échanges entre bibliothèques et besoins universitaires ou de recherche.

Stéphane.

PS : A noter le peu de présence des Français, surtout venant des grandes bibliothèques, aucune bibliothèque universitaire représentée, les acteurs classiques de l’IST n’y était pas non plus, heureusement l’ABES était là et bien sur le CNRS et le TGE ADONIS que je représentais indirectement.

Interdisciplinarité et humanités numériques

Bonjour,

Quelques réflexions après l’université d’été du très grand équipement ADONIS (Lyon, 3-4 sept. 2008), qui se met en place dans le monde de la recherche en sciences humaines et sociales et qui structure les humanités numériques (digital humanities).

La mise à disposition, sur le web, d’un corpus de documents numériques primaires (textes, images, données brutes issues de capteurs, etc.) pour la recherche en sciences humaines et sociales entraine la création d’une chaine de travail associant plusieurs métiers : le chercheurs, qui exprime un besoin et valide les informations sur le plan scientifique, le documentaliste qui prépare l’information et qui la rend inter-opérable à l’aide de méta-données, l’informaticien qui réalise des systèmes d’information capables de diffuser ces données et leurs méta-données, l’e-archiviste qui met en place une conservation des données numérique à long terme. Je me place ici dans le monde des données numériques dites « brutes » : donc dans la phase juste pré-éditoriale. Ce schéma est bien évidement théorique : il est rare, de nos jours, d’avoir tous ces métiers réunis autour d’un seul projet de recherche. Au niveau national ou d’un organisme cela pourrait être envisagé, mais, à ce niveau, un autre frein apparait : la difficulté du « travailler ensemble » entre partenaires venant de plusieurs établissements ou administrations. Mais les choses évolues très vite là aussi. Sans vouloir plaquer les mécanismes des méthodes industrielles sur d’autres domaines de la recherche scientifique, il est intéressant de noter tout de même les termes : « d’équipe », « diagramme de Gantt », « projet collaboratif », « colloque virtuel en ligne », commencent à se démocratiser chez les chercheurs et enseignants dans les sciences humaines et sociales.

Je pense que la notion de « chaine de compétences » présentée ci-dessus est la plus importante dans la réussite d’un projet de recherche collectif éprouvant le besoin de mettre en ligne des données afin de fédérer d’autres chercheurs ; qu’ils soient professionnels, étudiants, voir même des amateurs. Elle est souvent conditionnée par des locaux communs et qui font souvent défaut dans les sciences humaines et sociales (SHS). Une chaine de compétences doit répondre à une unité géographique, du moins au début, après quelques années, et une fois les normes bien appropriées par les acteurs, il est possible de virtualiser la chaine. La mise en place d’un projet de mise en ligne d’un corpus ou de diffusion, sur le web, d’une collection de documents numérisées entraine des phases de recherche, de production, de rendus et de valorisation des données : un processus doit répondre à un ou plusieurs cahiers des charges. A ce stade, il est intéressant d’aller chercher des conseils et des idées chez des professionnels d’autres domaines : dans les grands centres de calcul et de stockage. Là, les choses changent, les humanités numériques (digital humanities) prennent une nouvelle dimension. La chaine des compétences intègre de nouveaux domaines : les hautes disponibilités, l’OAIS, etc. Les humanités numériques sont au service de la recherche en SHS et elles font de l’interdisciplinarité une réalité et au sens large du terme.

Stéphane.

Le recensement canadien de 1881 en ligne

Bonjour,

La bibliothèque et les archives du Canada (BAC) ont ouvert le 6 août 2008 un site permettant l’accès aux données du recensement canadien de 1881. Les données du recensement, qui offrent une véritable photographie de la vie au Canada en 1881, sont à la fois disponibles au travers d’une base de données textuelle (avec un formulaire de recherche très complet, voir complexe, mais très intéressant pour les généalogistes) et sous la forme d’images JPEG (de bonne qualité) ou de fichiers PDF présentant les données originales (visiblement numérisées depuis un micro-film).

L’interface est très simple, très clair et très bien documenté ce qui facilite les recherches. Il est dommage d’un système de panier, permettant de conserver ces recherches pour le temps d’une session, ne soit pas proposé. Cependant, cet outil – en français et en anglais – est une très belle réalisation et il enchantera les chercheurs et les généalogistes. L’utilisation des images semble libre – pour une utilisation recherche ? – puisqu’il est proposé :
« Vous pouvez imprimer les images ou les sauvegarder sur votre ordinateur. Utilisez le lien suivant pour accéder à d’autres options, telles qu’emprunter des microfilms. »

Sans tomber dans la surenchère technologique, ce site illustre, avec tous ceux déjà réalisés par ces deux institutions, l’importance future de ces réservoirs de données pour les digitals humanities dans le monde.

Stéphane

Archive numérique d’Objets et de Matériaux iconographiques

L’annonce faite par Dan Cohen de l’association entre Zotero et Internet Archive pour la création de Zotero Commons (« The Zotero-IA alliance will create a “Zotero Commons” into which scholarly materials can be added simply via the Zotero client. » nous dit Dan Cohen) est très intéressante car elle (re)place les matériaux de recherche (carnets de terrains, carnets de notes, documents numériques, etc.) dans le monde des Archives Ouvertes. Ces dernières prendront peut-être à cette occasion un nouveau sens. Bien sur, il y a plein de problèmes à résoudre dans ce type de projets : la question des droits (cruciale, pour documents visuels dont le statut – à la prise de vue – est souvant flou ou mal défini), l’utilité de proposer tel ou tel document (pertinance), le rôle des intermédiaires ou « rouages classiques » entre les chercheurs, les étudiants et le grand public que sont les bibliothèques et centres de documentation.

Dans mon domaine, les Sciences Humaines et Sociales, les matériaux ayant été utilisés par les chercheurs pour leurs recherche sont très souvant publics, libres de droits ou en passe de le devenir (il suffit de faire de bonne convention avec les institutions dépositaires ou d’attendre…) et donc archivables dans une Archive numérique d’Objets et de Matériaux iconographiques (ou AOMS). C’est ce que nous tentons de construire, du moins de préfigurer avec le Centre National pour la Numérisation de Sources Visuelles et avec le soutien du TGE ADONIS et du département SHS du CNRS. Au CN2SV, nous travaillons avec des bibliothèques, des centres de documentation, des services d’archives autour du thème « archives – recherche – informatisation des données » définie par ma collègue Christine Blondel, historienne des sciences et chercheur au CNRS. Notre plateforme AOMS fonctionne depuis un an.

Ces projets permettront d’accroitre les échanges entre les scientifiques. Ils permettront aussi d’améliorer les méthodes et outils pour la conservation de nos fragiles documents numériques et ils seront les structures de conservation des matériaux des historiens du futur.

Bonne année 2008, à bientôt,

Stéphane.

science et correspondances : un blog pour les réseaux de savants

Quand les chercheurs utilisent les blogs cela peut donner ceci : Le Projet Correspondances.

Le « Projet Correspondances » est un projet de recherche international porté par mon laboratoire qui :

« vise à l’étude de correspondances entre savants européens des 17ème-20ème siècles, en particulier à travers l’utilisation d’éditions électroniques. Qu’apporte une édition électronique par rapport à une édition papier ? Quelles sont les difficultés et les contraintes d’une version électronique ? Quels outils mettre en oeuvre ? Quelles nouvelles recherches peuvent être menées ?

Un groupe d’historiens et informaticiens, français et étrangers, travaillant à l’édition de correspondances (D’Alembert, Ampère, les Bernouilli, Buffon, Euler, Lavoisier, Poincaré, Valisneri,… ) se réunit régulièrement au Centre de Recherche en Histoire des Sciences et des Techniques (UMR CNRS 8560) pour travailler sur ces questions. Ce groupe s’est donné comme premier objectif de réfléchir à l’élaboration d’outils les plus communs possibles pour l’édition électronique : constitution des bases de données, modèle commun pour rendre les différentes correspondances visibles sur internet via l’OAI (Open Archive Initiative, voir www.openarchives.org), outils d’édition, etc. »

Je trouve très intéressant ce type de site car il permet – à peu de frais et très rapidement – de présenter et de « souder » une équipe inter-structures autour du contenu d’un projet. Certains diront qu’il est difficile de faire écrire les chercheurs directement dans un blog… Ceci est vrai si le format blog est présenté comme un substitut à une édition électronique ou, pire, papier. Or là, point de concurrence entre publication et blog, nous avons un support rapide (notez que je parle par de média) permettant à un groupe d’accrocher réflexions, analyses, notes de réunions, référentiels, guides de bonnes pratiques, etc. Nous sommes loin de l’image des chercheurs travaillant dans leurs coins, ne diffusant rien de leurs travaux, etc.

Stéphane.

Erudition en réseau

L’École de l’érudition regroupe quatre institutions françaises (1) spécialisées dans l’étude, la recherche et la formation aux disciplines scientifiques de l’histoire et de l’érudition. Les stages, enseignements semestriels, séminaires de recherche, conférences et journées d’études fédérés dans ce réseau ont pour objectif d’aider les étudiants à mieux connaître les sources pour l’histoire de l’Occident et du monde méditérranéen, entre la fin de l’Antiquité et la naissance du monde moderne (ve-xviie siècle).

(1) : École Nationale des Chartes ; CESCM ; École Pratique des Hautes Études ; Institut de Recherche et d’Histoire des Textes

Master Archives et Images

Bonsoir,

Au détour d’un chemin numérique, guidé par del.icio.us, je suis tombé sur cette formation : le Master Archives et Images de l’université de Toulouse II et sur le site des Anciens étudiants de ce master, regroupé en une association : l’AICI. Cette association développe un site web, très intéressant, qui utilise les flux RSS de del.icio.us dans SPIP : voici une belle illustration du web 2.0 pour de la veille.

Stéphane.

e-rudition : acte 1

Le chemin, c'est l'endroit où l'on passeNous réfléchissons avec des collègues sur la notion d’érudition à l’heure des masses de données numériques.

La gestion d’une masse importante de données numériques est une chose nouvelle dans certaines branches des sciences humaines et sociales (SHS). Familière en physique, en sciences de l’univers et même depuis quelques années en archéologie, cette notion de masse impose parfois un changement dans la façon de mener les projets de recherche. Si le travail solitaire en archive et en bibliothèque existe toujours, il est également possible de bâtir des projets de recherche ayant pour corpus plusieurs milliers de documents nativement numériques. Ces projets sont le plus souvent collectifs car la numérisation et/ou la gestion de documents numériques – dont le support de conservation peut-être multiple (une photo et un enregistrement sonore peut être sur un même support : un disque dur, une carte mémoire, un CDROM, etc ; je revois le lecteur à la leçon inaugurale en vidéo de Gérard Berry, titulaire au Collège de France de la chaire d’innovation technologique – Liliane Bettancourt) – entraine la mise en place d’une chaine de traitement de ces données regroupant plusieurs savoirs-faire. Si l’un fait défaut, la chaine peut être compromise. Ce n’était pas le cas lors du travail solitaire du chercheur en bibliothèque, sauf si cette dernière disparait ou brule. La masse des données entraine donc une gestion « en équipe » des projets.

La préservation des grandes masses de données numériquement natives, que nous appellerons ici numnatives, soulève une autre question : la fragilité de ces dernières – si facilement effaçables – oblige les personnes y travaillant dessus à utiliser des moyens de stockage et de traitement nouveaux, du moins pour certains domaines. Ainsi apparaît, dans les SHS, la notion de grille de stockage et de calcul pour traiter les masses de données : calculer une surface de polygones à partir d’un nuage de points issus d’un scanner 3D (traitement de façades), traitements 2D/3D dans les systèmes d’information géographique, systèmes de zooms dynamiques sur les images 2D sous PHP/GD, etc. Avec les masses de données, ce qui change, ce sont aussi les besoins de traitement. Ceci entraine un travail obligatoirement collectif, car un chercheur ne peut développer ce type de structure de travail que dans un espace collectif de travail et dans un esprit de partage des données sources non-traitées : on ne monte pas un centre de calcul – donc une chaine de compétences – pour une seule personne. Les masses de données brutes, non traitées, perdront ainsi peu à peu ce curieux statut de « propriété personnelle » de M. ou Mme X. Les données numnatives collectées par une équipe seront petit à petit versées dans de grands réservoirs de données, le plus souvent inter-institutionnels et seront utilisables par plusieurs chercheurs en même temps et travaillant dans plusieurs équipes respectives.

Dans ce contexte, l’érudition sur un domaine, intègre des notions nouvelles : la virtualisation des données, donc la déconcentration des sources du savoir et la notion de flux, donc le pas de temporalité. Il ne s’agit plus de savoir où sont les sources, mais comment les traiter et comment en traiter autant.

Ceci est le point de départ, selon moi, de ce que nous pourrions appeler l’e-rudition.

Photo : Stéphane Pouyllau, Un chemin dans les monts du Caroux, « le chemin, c’est l’endroit où l’on passe ».

Guides pour réussir une numérisation

Je ne le répèterai assez jamais, mais l’informatisation des données ne se réduit pas uniquement à la numérisation de documents. Cependant, la numérisation – qui semble être un acte banal aujourd’hui pour beaucoup de monde – est une étape importante dans un projet. Toute numérisation doit d’appuyer sur la rédaction d’un cahier des charges. Les Archives de France proposent, en ligne, un guide technique très complet qui peut aider dans une telle rédaction (même si ce guide est très administratif sur le plan de la terminologie). Florence Clavaud (Directrice des nouvelles technologies et de l’informatique à l’Ecole nationale des Chartes) a réalisé, dans le cadre du centre de ressources TELMA et pour le Très grand équipement ADONIS, un guide des bonnes pratiques de numérisation et d’informatisation des données rapide à lire. J’encourage tout le monde à lire ces documents avant de ce lancer dans un projet de numérisation de corpus iconographiques (dans le cadre d’un projet ANR par exemple).

Stéphane.

E-Recherche : outils en ligne pour les chercheurs

Développée pour les chercheurs, ReseachGATE est une plateforme web 2.0 offrant des services pour les chercheurs permettant principalement d’échanger, rechercher et diffuser de l’information scientifique et technique. La phrase clé est : ResearchGATE is for scientists built by scientists driven by the concept of Science 2.0. Cette plateforme est un peu un facebook pour scientifiques. Il est possible d’y déposer sa liste de publication (chargement au format EndNote uniquement et c’est un peu dommage), d’y créer des groupes de recherche et des colloques « virtuels ». La gestion du profil est calqué sur facebook, on peut se demander pourquoi, par exemple, ils demandent « Relationship Status » (marié, célibataire,…). Ce type de plateforme trouvera-t-elle un modèle économique de fonctionnement à long terme ? Serait-il judicieux que les institutions de recherche (CNRS, Universités, …) s’en dote ? Comment se fera l’appropriation de ce type de plateforme ? Ces questions, qui n’ont pas encore de réponse claire, seront au cœur des métiers d’accompagnement de la recherche dans les années qui viennent.

Bonne journée,

Stéphane.

La norme OpenURL et la technologie Context Objects in Span (COinS)

Bonjour,

La technologie Context Objects in Span (COinS) permet d’ajouter dans une page web (billets de blog, résultats d’une recherche documentaire, liste de références bibliographiques) des méta-informations encodées selon la norme OpenURL. Cette technologie est déjà là depuis un petit moment, le figoblog en parlait déjà en décembre 2006, mais sa démocratisation prendra du temps comme toujours : j’y consacre à mon tour un billet.

Cela fonctionne par l’ajout d’une balise <span> contenant une classe et un titre contenant des informations descriptives du contenu publié en ligne : des méta-données. Il est possible de préparer cette balise span un peu spéciale à l’aide d’outils en ligne à base de formulaires, mais il est plus judicieux, pour les blogs, d’utiliser des modules qui font cela automatiquement : c’est le cas pour le moteur WordPress. Mon blog en est d’ailleurs maintenant équipé. Cela permet, par exemple, pour ceux qui utilisent le gestionnaire de références bibliographiques Zotero de capturer les méta-données (titre, dates, auteurs, etc.) d’un billet de blog ou d’une page web. De nombreux catalogues de références bibliographique utilisent cela : le Sudoc, Amazon, ou encore les blogs du portail Hypotheses.org.

La définition du système COinS est claire :

« The goal is to embed citation metadata into html in such a way that processing agents can discover, process and make use of the metadata. Since an important use of this metadata will be to allow processing agents to make OpenURL hyperlinks for users in libraries (latent OpenURL), the method must allow the metadata to be placed any where in HTML that a link might appear. In the absence of some metadata-aware agent, the embedded metadata must be invisible to the user and innocuous with respect to HTML markup. To meet these requirements, the span element was selected. The NISO OpenURL ContextObject is selected as the specific metadata package. The resulting specification is named « ContextObject in SPAN » or COinS for short. » (source : http://ocoins.info).

Une fois encore, un peu comme avec l’IPTC Core pour les images, il s’agit d’embarquer (embed) des méta-données au sein même de la page web qui contient l’information dans un format ouvert et surtout contextuel : OpenURL.

Le span ressemble à cela : [span class= »Z3988″ title= »ctx_ver=Z39.88-2004&
amp;rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Adc&r
fr_id=info%3Asid%2Focoins.info%3Agenerator&r
ft.title=La+d%C3%A9mocratisation+du+XML+documentaire&r
ft.aulast=POUYLLAU&rft.aufirst=St%C3%A9phane&r
ft.subject=IT&rft.source=sp.Blog&rft.date=2008-05-18&r
ft.type=blogPost&rft.format=text&r
ft.identifier=http://blog.stephanepouyllau.org/la-democratisation-du-xml-documentaire&rf
t.language=French »]

A voir comme cela c’est un peu complexe, mais il s’agit bien de méta-données, proche du DublinCore d’ailleurs, encapsulées dans une balise <span>.

COinS est une technologie qui permet une utilisation simple, pour l’internaute, des e-références : les méta-données. COinS, couplé avec un outil tel que Zotero, peut rendre plus simple la collecte de références bibliographiques disponibles sur le web. Mieux, utilisée dans les blogs, elle les transforme en réservoirs d’informations…

Bon dimanche,

Stéphane.

Photo sous licence CC par jen-the-librarian. Continuer la lecture de « La norme OpenURL et la technologie Context Objects in Span (COinS) »

La démocratisation du XML documentaire

PS postconférence : la présentation est disponible en ligne, au format PDF (8Mo), depuis ce lien : A l’heure de la démocratisation du XML documentaire

Bonsoir,

Aller, de l’autopromo en ce dimanche soir… J’animerai, le 27 mai 2008, à la Maison des Suds (domaine universitaire de Bordeaux, 12 esplanade des Antilles, Pessac) et à l’invitation de l’ADBS Aquitaine un séminaire sur la démocratisation du XML documentaire. Je présenterai aussi la façon de concevoir des applications composites (ou mashup) utilisant le XML au travers des réalisations du Centre National pour la Numérisation de Sources Visuelles du CNRS (CN2SV) et du Centre de Recherche en Histoire des Sciences et des Techniques dont j’ai le plaisir d’être le responsable technologique. C’est la conception d’applications en « briques ». Nous sommes tous des « chefs de chantier » et des maçons.

Le langage XML a 10 ans. Il s’est imposé dans de nombreuses applications et méthodes permettant le traitement de l’information scientifique primaire (TEI, XML ALTO, MathML, X3D, GeoXML, KML etc.) et secondaire (MarcXML, BiblioML, EAD, EAC, XMP, etc.).

A la démocratisation du XML correspond l’émergence, dans la recherche en sciences humaines et sociales, d’équipes associant documentation, informatique et informatisation des données primaires, archivistique et edition électronique au service de projets de recherche. Un grand nombre de ces équipes font elles-même de la recherche sur un domaine encore nouveau en France: les humanités numériques (ou digital humanities) et créent des réseaux d’échanges d’informations, méthodes, briques logicielles, etc. (ex. : Mutec ; les 5 centres nationaux de ressources numériques ; la plateforme 3D ArchéoVision ; etc. ). L’utilisation du XML permet de partager de l’information (RSS, Atom) ; déployer des solutions hybrides à l’aide de petits connecteurs utilisant XML (GeoData, utilisant GéoXML, pour le CN2SV qui est capable de « dialoguer » avec l’API de Google Maps et donc vers du KML) mais surtout, XML est un moyen de ce comprendre, de s’entendre entre documentalistes, informaticiens, archivistes, chercheurs. Ceci est plus que nécessaire à l’heure de la recherche sur projets où la question de la pérennité des données numériques sera l’un des critères d’évaluation et où elle est déjà fondamentale pour tous projets à dimension internationale (voir, par exemple, le protocole OAI-PMH qui utilise XML).

Le CN2SV (opérateur du TGE ADONIS), associé à la plateforme technologique du Centre de Recherche en Histoire des Sciences et des Techniques, forme, depuis 2002, l’une de ces équipes. Spécialisé dans l’informatisation des données en histoire des sciences et des techniques et en re-documentarisation de données factuelles à caractère iconographiques, le CN2SV et le CRHST ont développé de nombreuses applications qui utilisent du XML normé (EAD, MathML, etc.).

Ainsi, ce séminaire présentera, au travers de l’expérience et des nombreuses réalisations du CRHST et du CN2SV : les méthodes et normes XML qui peuvent être utilisées et associées pour créer des systèmes d’information scientifiques et documentaires, des exemples d’applications web composites et des outils permettant l’interopérabilité des données.

XML est partout et il est de plus en plus transparent (caché dans le format *.odt d’Open Office, ou dans nos flux RSS, etc.). XML peut être un ciment, un langage, un vecteur. Rendez-vous le 27 à Bordeaux…

Bonne soirée.

Stéphane

Faire un choix de CMS

Bonjour,

De nombreux projets de recherche ont besoin de créer des sites web afin de communiquer et de grouper virtuellement la communauté qui l’anime. De nos jours les systèmes de gestion de contenu (ou CMS) open source et gratuit se sont imposés, mais de SPIP à Lodel en passant par Typo3, par facile de faire un choix. Maintenant il y a cms-fr.net qui permet de tester des CMS ayant tous des traduction française :

« Le cms est-il francisé, bénéficie t’il d’un support francophile à défaut d’être francophone. Bref, quels sont les cms pouvant être installer, administrer, utiliser, customiser, configurer par des utilisateurs ne parlant que la langue de Molière… et ils sont nombreux !. » Nous informe le site. A visiter. Un bémol, l’inscription obligatoire pour avoir accès au serveur de démonstration.

Stéphane.

Equipes Numériques : nouveaux métiers, nouvelles structures

Ce billet s’appuie sur le texte de Pierre Mounier disponible en ligne sur l’Unité Numérique de l’ENS LSH.

 

La diffusion de sources historiques sur le web est en augmentation et la demande est de plus en plus forte. Les étudiants, au niveau master par exemple, seront dans quelques années, les principaux utilisateurs des sources historiques numérisées et disponibles en ligne (web et entrepôts OAI). Le signalement de ces sources s’améliore de jours en jours même si de nombreux sites ou entrepôts de données restent « isolés » (notion curieuse pour le web je vous l’accorde). Après l’époque des sites web offrant des sources numérisées, nous sommes dans celle des entrepôts, et des méta-entrepôts. Aujourd’hui, tout le monde fait de la rétro-numérisation de sources : bibliothèques, services d’archives, laboratoires de recherche, projets de recherche. Même un chercheur isolé demande de plus en plus une copie numérisée d’une source et si possible envoyée à son adresse électronique. Depuis quelques années, des présentations PowerPoint, « augmentées » de sources numériques, fleurissent dans les TD des universités et les plateformes d’enseignement à distance. Dans le monde de la recherche scientifique en sciences humaines et sociales, c’est aujourd’hui une évidence, les sources numérisées sont partout.

Depuis quelques années, la demande devient également importante. Aujourd’hui, les chercheurs publient des articles dans des revues électroniques, déposent dans les archives ouvertes et associent, ou le feront bientôt, à leurs articles des fac-similés numériques (manuscrits, collections de photos, etc.). Face à cette demande, des méta-entrepôts sont en construction. Ils sont souvent la partie immergé de méta-portails disciplinaires. La tendance actuelle et à l’interconnexion de ces méta-entrepôts à l’aide protocoles fondés sur : des normes communes, des briques technologiques communicantes et utilisant les canaux naturels du web (http, etc.).

Dans les sciences humaines, ces méta-entrepôts sont créés la plupart du temps par les équipes IT regroupant des ingénieurs, des techniciens spécialisés en information scientifique et techniques (IST), en documentation et archivistique et des chercheurs (voir le billet de Pierre Mouier sur l’Unité Numérique). En lisant ce billet, je me suis aperçu que mon équipe IT – le CRHST et son centre de ressources numériques (le CN2SV) – avait un rôle assez semblable finalement et je me suis assez bien reconnu dans ce paragraphe de Pierre Mounier :

« Pour dire les choses brutalement, l’Unité Numérique est une structure nouvelle qui répond à une situation nouvelle. On peut penser qu’elle est une manière particulière, comme d’autres le font différemment ailleurs, d’inventer un nouveau métier, celui d’éditeur numérique. Elle ne pourrait faire ni l’un ni l’autre (répondre à la situation et inventer un métier) si son centre de gravité se déplaçait et la faisait tomber de l’un ou l’autre des côtés (dans une bibliothèque, un service informatique ou une maison d’édition traditionnelle). »

Un nouveau métier ? Oui, j’en suis persuadé depuis quelques temps, c’est bien un nouveau métier avec ces formations et ces réseaux. A nouveau métier, nouvelles structures ? Bien évidement. Elles font de l’informatisation des données, de l’ingénierie documentaire, de la re-documentarisation de sources, de l’édition électronique et elles inventent et adaptent des outils informatiques pour des projets de recherche. Elles sont le lien, grâce à la veille technologique, entre les contenus des grandes bibliothèques numériques et les besoins des chercheurs. Je rejoints également Pierre Mounier sur l’idée suivante :

« … le principe du respect de l’autonomie scientifique et éditoriale des équipes de recherche avec lesquelles le travail est fait. Et l’application de ce principe est un peu une quête du Graal car il ne se résume évidemment pas à laisser les chercheurs tout faire par eux-mêmes. Il s’agit bien plutôt de faire en sorte que les choix qui sont faits et les actions techniques qui sont déléguées à l’Unité Numérique ne se traduisent pas par une dépossession et finalement une trahison des projets de recherche. Il faut donc pour chaque projet, en fonction du type de réalisation et de demande, mais en fonction aussi des particularités propres à l’équipe qui la porte, imaginer un dispositif qui mixe un choix d’outils appropriés, une bonne répartition des tâches et des niveaux de décision et une dose variable de formation des équipes de recherche aux technologies numériques. A ma connaissance, mais je peux me tromper, la composition du cocktail n’est pas totalement standardisable et ne peut faire l’objet de procédures automatiques. »

Pour ma part, et depuis que je travaille dans ce domaine du CNRS, je pense que l’accompagnement des chercheurs dans leurs projets doit s’appuyer sur :

  1. Un respect éditorial du projet porté par l’équipe de recherche (ER)

  2. Une implication de l’ER, par l’initiation, l’information et la démonstration, dans les problématiques propres à l’équipe IT. Ainsi elle comprend mieux les contraintes (techniques, financières, etc.) et les choix réalisés.

  3. Un respect des formats ouverts, tant sur le plan des logiciels que sur les formats de stockages des données

  4. L’établissement de phases de production qui prennent en compte la pérennité des données et des réalisations (en collaboration avec d’autres organismes pour les productions web par exemple)

Ce sont les quatre principales règles que nous respectons au CRHST et dans le cadre du CN2SV, elles sont proches de celles de l’Unité de Pierre Mounier. Je pense qu’elles doivent être utilisées ailleurs, dans d’autres équipes adossées à d’autres institutions, et j’en suis heureux. Ce nouveau métier et ces structures nouvelles au service des sources numérique en ligne, ouvrent sans aucun doute, de nouveaux horizons pour la recherche scientifique.

Alors, 2008, année zéro ?

AOMS : Google et le cycle de vie proposé par le DCC

Bonjour,

La relance du projet Palimpsest par Google a été depuis quelques jours largement commentée dans la blogosphere. Il est intéressant de mettre cela en perspective avec la publication par le Digital Curation Center d’un modèle présentant un cycle de vie des données numérique issues et surtout utiles pour la recherche. C’est deux annonces permette de bien comprendre que stocké n’est pas préservé. Le modèle du DCC propose une chaine complexe – qui s’agira de traduire en français afin d’en diffuser plus largement le contenu – mais nécessaire pour assurer la conservation numérique. Ce modèle est intéressant car il pose les questions hors des questions de stockage physique qui monopolises généralement les équipes de recherche (et les chercheurs isolés) qui n’ont que très rarement dans leurs équipes un bon gestionnaire IST (documentaliste, bibliothécaire ayant une spécialité en matière de numérique). Il faut promouvoir ce type de modèles/schémas, les présenter dans les formations (IUT, Universités, etc.) et faire des mises en application dans les projets de recherche actuels. Les Centres de Ressources numériques TELMA, CRDO et CN2SV, créés par le CNRS en 2005, organiseront en oct. 2008 une Ecole Thématique sur ce sujet avec le soutien du très grand équipement ADONIS.

Stéphane.

Netscape, 1994-2008

Bonsoir,

En cette fin d’année 2007, nous apprenons la fin officielle du support de Netscape au 1er février 2008. Netscape, né en 1994, est le premier navigateur web digne de ce nom pour la première génération des internautes. Je me souviens des premières heures du HTML, du javascript d’avant l’AJAX et du « N » bleu qui « dansait » dans le coin de Netscape 1.0.

netscape.jpg

En fait, Netscape se retire au profit de Mozilla, fondation dans laquelle Netscape est partenaire, et donc la suite de Netscape est un peu Firefox. Bye bye, Netscape et merci.

Stéphane.

Omeka : un outil du CHNM pour créer des expositions virtuelles

Bonjour,

Annoncé il y a quelques semaines sur le site du CHNM (Center for History and New Media, qui réalise déjà l’outil Zotero), la plateforme Omeka permet la mise en ligne de collection de documents visuels et de créer des expositions virtuelles. Encore en version « béta », je n’ai pas pu – encore – pu tester, cette nouvelle application reposant sur LAMP + ImageMagik mais dont le site présente les caractéristiques principales, voir omeka.org. Omeka s’inscrit dans une lignée d’outils déjà existants dont le plus connu en Europe est Pinakes (dont la version 3 est aujourd’hui open source) mais qui s’adresse cependant davantage aux musées et à des collections bien documentées. Omeka apporte avec lui quelques standards : tel que l’utilisation des métadonnées Dublin Core dans ces différents niveaux (items, collections,etc). Pour le moment un projet est équipé avec Omeka : le projet hurricanearchive.org. Ce projet permet la collecte de photographies et de données visuelles sur les dégâts engendrés par les cyclones Rita et Katrina.

Joyeuses fêtes,

Stéphane.

Frises chronologiques sur le web : utilisation de Timeline pour faire un mashup AJAX avec PHP et MySQL

Bonsoir,

Je profite d’un week-end loin de Paris et d’un long voyage en train pour décrire (mais avec beaucoup de retard) un petit mashup que j’ai réalisé pour le site @.ampère et l’histoire de l’électricité. L’idée de départ était de développer des chronologies avec l’outil Timeline mis au point par le MIT et que pas mal de développeurs connaissent et utilisent. Timeline permet de créer des frises chronologiques à l’image de celles encore présentes dans les livres scolaires d’histoire (nous avons tous rêvés devant ces frises en couleurs présentant l’histoire de l’Homme par exemple). C’est outil utilise des éléments en javascript et du XML : c’est donc un système basé sur AJAX. Dans le site @.ampère nous voulions faire une frise avec des éléments historiques différents le tout devant être synchronisé :

  • une sous-frise sur les grands personnages de l’histoire de l’électricité
  • une sous-frise sur les grandes découvertes de ce même domaine

Dans Timeline, les évènements (events) sont stockés dans un fichier XML très simple. Dans le but d’inclure Timeline dans le système d’information (SI) du site, nous avons utilisé deux tables MySQL pour mettre les données brutes (date, contenu de l’évènement, etc.). Un script PHP utilisant DOM réalise alors une présentation XML de ces données : en sortie, nous avons deux fichiers XML, un pour chaque sous-frise, qui sont normés suivant le schéma des fichier nécessaire au fonctionnement de Timeline. Nos deux tables MySQL sont indépendantes du système AJAX de Timeline : c’est PHP/DOM qui formate les données en XML suivant la grammaire Timeline. Nous avons d’ailleurs un autre programme PHP qui présente ces même données sous la forme d’une page web classique. Le schéma suivant en résume le modèle :

Modèle informatique de frise chronologique (site www.ampere.cnrs.fr)

Les deux fichiers XML sont stockés dans un répertoire du serveur et chargé dans l’application AJAX qui gère Timeline. Le XML resemble à ceci :

<?xml version="1.0" encoding="iso-8859-1"?><data>

<event start="Jan 00 1544 00:00:00 GMT" end="Jan 00 1603 00:00:00 GMT" 
image="AMP_1015.jpg" isDuration="true" title="William GILBERT">(1544-1603)</event><event start="Jan 00 1666 00:00:00 GMT" end="Jan 00 1736 00:00:00 GMT" 
isDuration="true" title="Stephen GRAY">(1666-1736)</event> ...
</data>

Pour le tout fonctionne, il nous a fallu ajouter un petit programme php de vérification de la forme des dates/heures histoire de ne pas avoir de bug dans l’une des deux sous-frises. Pour terminer nous avons ajouté, dans le fichier javascript de la frise (main.js) qui pilote l’affichage écran, les instructions suivantes :

bandInfos[1].eventPainter.setLayout(bandInfos[1].eventPainter.getLayout());

tl = Timeline.create(document.getElementById("my-timeline"), bandInfos, Timeline.HORIZONTAL);

Timeline.loadXML("kronos1.xml", function(xml, url) { eventSourceA.loadXML(xml, url); });

Timeline.loadXML("kronos2.xml", function(xml, url) { eventSourceB.loadXML(xml, url); });

Nous avons une « bandInfos » dans laquelle nous « chargeons » les deux fichier XML : kronos1.xml et kronos2.xml. Ce chargement est réalisé au sein des deux eventSource (A et B). Ce fichier, main.js, qui est un fichier javascript pur est chargé dans une page HTML (ou PHP dans notre cas) par l’utilisation d’une simple balise <script> dans l’entête. La frise « double » est ensuite affiché dans le code HTML via un « id » de balise <div> :

<div id="my-timeline" style="height:800px; width:100%;"></div>

Le tour est joué, nous avons une belle frise chronologique présentant de façon synoptique ces deux types d’évènements. Voici le résultat :

FriseChronoAmpere

Bonne fin de week-end,

Stéphane.

PS : Merci à Marie-Hélène Wronecki pour le travail sur la base de données MySQL.