sp.Blog

le blog de Stéphane Pouyllau

Catégorie : e-rudition

Bibnum : une bibliothèque numérique et virtuelle des textes fondateurs de la science

Bonsoir,

Notre collègue, Alexandre Moatti, vient de lancer la bibliothèque numérique bibnum qui se positionne sur la mise à disposition des principaux textes scientifique antérieurs à 1940 pour un large public (mais aussi pour les étudiants et les scientifiques). Ces textes fondateurs pour la science, sont tous accompagnés d’un commentaires écrit par des scientifiques actuels. Comme l’annonce l’édito du site les textes sont  « commentés par des scientifiques contemporains qui souhaitent partager leur intérêt pour ces textes et analysent leur impact dans la science et la technologie actuelle ».

Dans la consultation, la navigation par onglet permet, très clairement, de passer du texte au commentaire, une bibliographie et une webographie sont toujours associées aux textes édités. Un vrai beau travail mariant la documentation, l’édition, la science et l’histoire.

Utilisant la technologie « ipaper » issue du projet scribd.com, très belle, rapide, encapsulable, il est également possible d’avoir les références bibliographiques (du texte et du commentaire) dans un format « zotero compatible », en XML et au format BibTex. L’embedding est un classique maintenant.

Il est un peu dommage que les textes, disponible en PDF « cherchable » (image sur texte, mais assez dont l’assemblage est assez curieux), ne soient pas également disponibles dans un format « ouvert » (XML balisé selon la TEI par exemple) au téléchargement. A suivre…

Stéphane.

digital humanities : le tournant et la eSHSgrid

L’école thématique sur la préservation et diffusion numériques des sources de la recherche en sciences humaines et sociales, organisée par les centres de ressources numériques du CNRS propose une formation aux humantiés numériques (digital humanities) en matière d’édition de sources pour la recherche scientifique en sciences humaines et sociales. Les 30 personnes qui sont ici suivent plusieurs ateliers sur l’informatisation des données manuscrites, iconographiques, orales.

La communauté des digitals humanities se structure, se parle, travaille. La mise en ligne de collections iconographies, la création d’entrepôts de données « images » et « visuelles » (y compris les modèles 3D) n’est plus envisagé sans la structuration de l’information : fichiers RAW, fichiers TIF, vignettes à la volée en JPEG, calculateurs de rendu, métadonnées XMP (ou encore en IPTC), EXIF, MIX, METS, DC. Belle avancée ! Les choses doivent encore se préciser mais le numérique est aujourd’hui au cœur d’un très grand nombre , c’est le « digital turn » ou tournant digital proposé par Paul Bertrand. Les sources numérisées vont laisser la place – de plus en plus – aux sources numériques structurées, c’est aujourd’hui une quasi-réalité et presque du passé et le XML, les normes, l’open-source sont au coeur du digital turn. Un e-chercheur sera l’utilisateur de ces corpus hybrides structurés, virtualisés, accessibles à tous les chercheurs au travers, tel les données du LHC, d’une eSHSgrid et constitué, non pas pour une utilisation individuelle, mais génératrice de publications multiples, papiers, mais aussi de plus en plus elles-mêmes électroniques. Cette eSHSgrid garantie le socle d’accessibilité aux données.

Le wiki de l’Ecole est actualisé en permanance par les participants.

Stéphane.

Interdisciplinarité et humanités numériques

Bonjour,

Quelques réflexions après l’université d’été du très grand équipement ADONIS (Lyon, 3-4 sept. 2008), qui se met en place dans le monde de la recherche en sciences humaines et sociales et qui structure les humanités numériques (digital humanities).

La mise à disposition, sur le web, d’un corpus de documents numériques primaires (textes, images, données brutes issues de capteurs, etc.) pour la recherche en sciences humaines et sociales entraine la création d’une chaine de travail associant plusieurs métiers : le chercheurs, qui exprime un besoin et valide les informations sur le plan scientifique, le documentaliste qui prépare l’information et qui la rend inter-opérable à l’aide de méta-données, l’informaticien qui réalise des systèmes d’information capables de diffuser ces données et leurs méta-données, l’e-archiviste qui met en place une conservation des données numérique à long terme. Je me place ici dans le monde des données numériques dites « brutes » : donc dans la phase juste pré-éditoriale. Ce schéma est bien évidement théorique : il est rare, de nos jours, d’avoir tous ces métiers réunis autour d’un seul projet de recherche. Au niveau national ou d’un organisme cela pourrait être envisagé, mais, à ce niveau, un autre frein apparait : la difficulté du « travailler ensemble » entre partenaires venant de plusieurs établissements ou administrations. Mais les choses évolues très vite là aussi. Sans vouloir plaquer les mécanismes des méthodes industrielles sur d’autres domaines de la recherche scientifique, il est intéressant de noter tout de même les termes : « d’équipe », « diagramme de Gantt », « projet collaboratif », « colloque virtuel en ligne », commencent à se démocratiser chez les chercheurs et enseignants dans les sciences humaines et sociales.

Je pense que la notion de « chaine de compétences » présentée ci-dessus est la plus importante dans la réussite d’un projet de recherche collectif éprouvant le besoin de mettre en ligne des données afin de fédérer d’autres chercheurs ; qu’ils soient professionnels, étudiants, voir même des amateurs. Elle est souvent conditionnée par des locaux communs et qui font souvent défaut dans les sciences humaines et sociales (SHS). Une chaine de compétences doit répondre à une unité géographique, du moins au début, après quelques années, et une fois les normes bien appropriées par les acteurs, il est possible de virtualiser la chaine. La mise en place d’un projet de mise en ligne d’un corpus ou de diffusion, sur le web, d’une collection de documents numérisées entraine des phases de recherche, de production, de rendus et de valorisation des données : un processus doit répondre à un ou plusieurs cahiers des charges. A ce stade, il est intéressant d’aller chercher des conseils et des idées chez des professionnels d’autres domaines : dans les grands centres de calcul et de stockage. Là, les choses changent, les humanités numériques (digital humanities) prennent une nouvelle dimension. La chaine des compétences intègre de nouveaux domaines : les hautes disponibilités, l’OAIS, etc. Les humanités numériques sont au service de la recherche en SHS et elles font de l’interdisciplinarité une réalité et au sens large du terme.

Stéphane.

Erudition en réseau

L’École de l’érudition regroupe quatre institutions françaises (1) spécialisées dans l’étude, la recherche et la formation aux disciplines scientifiques de l’histoire et de l’érudition. Les stages, enseignements semestriels, séminaires de recherche, conférences et journées d’études fédérés dans ce réseau ont pour objectif d’aider les étudiants à mieux connaître les sources pour l’histoire de l’Occident et du monde méditérranéen, entre la fin de l’Antiquité et la naissance du monde moderne (ve-xviie siècle).

(1) : École Nationale des Chartes ; CESCM ; École Pratique des Hautes Études ; Institut de Recherche et d’Histoire des Textes

e-rudition : acte 1

Le chemin, c'est l'endroit où l'on passeNous réfléchissons avec des collègues sur la notion d’érudition à l’heure des masses de données numériques.

La gestion d’une masse importante de données numériques est une chose nouvelle dans certaines branches des sciences humaines et sociales (SHS). Familière en physique, en sciences de l’univers et même depuis quelques années en archéologie, cette notion de masse impose parfois un changement dans la façon de mener les projets de recherche. Si le travail solitaire en archive et en bibliothèque existe toujours, il est également possible de bâtir des projets de recherche ayant pour corpus plusieurs milliers de documents nativement numériques. Ces projets sont le plus souvent collectifs car la numérisation et/ou la gestion de documents numériques – dont le support de conservation peut-être multiple (une photo et un enregistrement sonore peut être sur un même support : un disque dur, une carte mémoire, un CDROM, etc ; je revois le lecteur à la leçon inaugurale en vidéo de Gérard Berry, titulaire au Collège de France de la chaire d’innovation technologique – Liliane Bettancourt) – entraine la mise en place d’une chaine de traitement de ces données regroupant plusieurs savoirs-faire. Si l’un fait défaut, la chaine peut être compromise. Ce n’était pas le cas lors du travail solitaire du chercheur en bibliothèque, sauf si cette dernière disparait ou brule. La masse des données entraine donc une gestion « en équipe » des projets.

La préservation des grandes masses de données numériquement natives, que nous appellerons ici numnatives, soulève une autre question : la fragilité de ces dernières – si facilement effaçables – oblige les personnes y travaillant dessus à utiliser des moyens de stockage et de traitement nouveaux, du moins pour certains domaines. Ainsi apparaît, dans les SHS, la notion de grille de stockage et de calcul pour traiter les masses de données : calculer une surface de polygones à partir d’un nuage de points issus d’un scanner 3D (traitement de façades), traitements 2D/3D dans les systèmes d’information géographique, systèmes de zooms dynamiques sur les images 2D sous PHP/GD, etc. Avec les masses de données, ce qui change, ce sont aussi les besoins de traitement. Ceci entraine un travail obligatoirement collectif, car un chercheur ne peut développer ce type de structure de travail que dans un espace collectif de travail et dans un esprit de partage des données sources non-traitées : on ne monte pas un centre de calcul – donc une chaine de compétences – pour une seule personne. Les masses de données brutes, non traitées, perdront ainsi peu à peu ce curieux statut de « propriété personnelle » de M. ou Mme X. Les données numnatives collectées par une équipe seront petit à petit versées dans de grands réservoirs de données, le plus souvent inter-institutionnels et seront utilisables par plusieurs chercheurs en même temps et travaillant dans plusieurs équipes respectives.

Dans ce contexte, l’érudition sur un domaine, intègre des notions nouvelles : la virtualisation des données, donc la déconcentration des sources du savoir et la notion de flux, donc le pas de temporalité. Il ne s’agit plus de savoir où sont les sources, mais comment les traiter et comment en traiter autant.

Ceci est le point de départ, selon moi, de ce que nous pourrions appeler l’e-rudition.

Photo : Stéphane Pouyllau, Un chemin dans les monts du Caroux, « le chemin, c’est l’endroit où l’on passe ».

E-Recherche : outils en ligne pour les chercheurs

Développée pour les chercheurs, ReseachGATE est une plateforme web 2.0 offrant des services pour les chercheurs permettant principalement d’échanger, rechercher et diffuser de l’information scientifique et technique. La phrase clé est : ResearchGATE is for scientists built by scientists driven by the concept of Science 2.0. Cette plateforme est un peu un facebook pour scientifiques. Il est possible d’y déposer sa liste de publication (chargement au format EndNote uniquement et c’est un peu dommage), d’y créer des groupes de recherche et des colloques « virtuels ». La gestion du profil est calqué sur facebook, on peut se demander pourquoi, par exemple, ils demandent « Relationship Status » (marié, célibataire,…). Ce type de plateforme trouvera-t-elle un modèle économique de fonctionnement à long terme ? Serait-il judicieux que les institutions de recherche (CNRS, Universités, …) s’en dote ? Comment se fera l’appropriation de ce type de plateforme ? Ces questions, qui n’ont pas encore de réponse claire, seront au cœur des métiers d’accompagnement de la recherche dans les années qui viennent.

Bonne journée,

Stéphane.

Fièrement propulsé par WordPress & Thème par Anders Norén