e-rudition – Archives du blog de Stéphane Pouyllau

THATCamp Paris 2010 : la communauté des digital humanities de France s’organise

La première non-conférence française sur les sciences humaines et sociales numériques (digital humanities) se tient depuis hier matin et se poursuit aujourd’hui à Paris, sur une péniche entre la BNF et le ministère des finances Bercy : David contre des Goliats ? Non, pas réellement, cette communauté est très ouverte : c’est le THATCamp Paris 2010. Cette non-conférence regroupe des ingénieurs, des enseignants-chercheurs, des techniciens, des chercheurs, des prestataires de services venant du privé, des doctorants, des post-doc, des artistes qui ont envie et besoin de travailler ensemble pour concevoir des nouvelles méthodes de travail, de nouveaux outils hybrides (hyper mashup-é), de mélanger des métiers, construire des cyber-infrastructures itératives afin de donner du liant et du sens numérique aux projets de recherche en sciences humaines et sociales. Ces projets ont pour la plupart un volet numérique (ne serait-ce que la bibliographie mise en commun entre les chercheurs d’un projet) et de plus en plus de projet doivent diffuser à la fois les sources et résultats de leurs recherches. Donc, il y avait beaucoup de monde hier sur cette péniche et l’ambiance était très studieuse, sérieuse mais aussi très chaleureuse. J’ai eu le plaisir d’animer un atelier sur les fonds iconographiques numériques qui, j’espère, a été intense pour les participants (que je remercie au passage). Le compte-rendu de cette atelier sera diffusé en ligne, sur le wiki du THATCamp Paris 2010 et les grandes lignes serviront, sans doute, à construire le Manifeste qui sortira, entre autres choses, de cette non-conférence. A quand la prochaine édition ?

Sciences humaines et sociales numériques

Bonjour,
Très prochainement, deux évènements vont avoir lieu dans le monde des sciences humaines et sociales numériques (cette expression fait encore débat pour la version française du terme digital humanities) : le THATCamp Paris 2010 (Paris, 18/19 mai 2010) et la formation sur la gestion numérique des sources de la recherche en sciences humaines et sociales (Aussois, 11/15 octobre 2010) et dont le wiki va être ouvert dans quelques jours sur le site www.digitalhumanities.fr. Ces évènements sont importants. Ils montrent le mouvement actuel d’organisation des shs numériques. Les acteurs du domaine, institutionnels mais aussi informels structurent ce vaste « eldorado ». Depuis deux, trois ans, les actions de formation mais aussi de nombreux ateliers et séminaires se sont multipliés partout en France et les acteurs du domaine, chercheurs, informaticiens, documentalistes et bibliothécaires travaillent de plus en plus en coopération. Des utilisateurs vont à la rencontre de plateformes, services et des communautés de veilleurs naissent et diffusent via de « nouveaux » canaux. Récemment, une collègue de la bibliothèque universitaire de Lyon 1 a présenté sa démarche et son parcours pour la création d’une photothèque utilisant comme réservoir de données MédiHAL. Même si MédiHAL évolue petit à petit, suite aux critiques, conseils, retours des utilisateurs, je suis très heureux de voir que cette application est aussi utilisée en tant que simple conteneur de données. Le projet de la BU de Lyon 1 n’utilise les possibilités de l’OAI-PMH (avec moissonnage du dc:terms par exemple), il utilise cependant MédiHAL comme un simple conteneur (archivé à long terme très bientôt) ainsi il me tarde de voir les premières applications documentaires ou sites web qui viendront moissonner tel ou tel « sets » (collections) OAI-PMH de MédiHAL. Les sciences humaines et sociales numériques comme dirait Lou Burnard sont en pleine évolution : les applications sont en plein « mashup-age », l’archivage à long terme devient une réalité pour les données des SHS et bientôt, sans doute, les résultats de la recherche seront connectés aux matériaux sources de la recherche.

Stéphane.

Des données brutes 2.0

L’administration Américaine a lancé data.gov : une plateforme d’accès aux données brutes de la santé, l’environnement, l’énergie, recherche, éducation. C’est très (trop?) ambitieux, voir utopique (mais il s’agit des USA) et d’ailleurs cet avis est partagé. Mais l’initiative est là et la plateforme déjà en ligne : il s’agit d’un projet hybride entre archives, recherche et accès. Ce projet, une récente discussion avec Got, croisée d’une journée avec les collègues du Centre de calcul de l’IN2P3-CNRS (qui héberge beaucoup de données issues des SHS), m’a conforté sur la notion et la nécessité de réservoirs de données brutes pour la recherche en SHS.

Ces réservoirs existent aujourd’hui dans les laboratoires de SHS, mais les données qu’ils contiennent sont souvent encore perçues comme des données « privés », réservées aux chercheurs locaux. Il est vrai qu’ils les ont collectées ou générées et ce travail n’est pas réellement reconnu dans le parcours d’un chercheur alors qu’il est fondamental. Ces données « pour la recherche » ont donc souvent tendance à « mourir » au fond de nos disques durs faut d’une infrastructure double : archivage des données (pour l’histoire), diffusion des données « brutes » et pas forcement éditorialisées dans une publication électronique académique mais mise à disposition de la communauté scientifique comportant un minimum d’appareil éditorial basé sur le Dublin Core Terms par exemple. D’autant que souvent, ces données ont été collectées ou générées sur fonds publics (ne serait ce que le salaire du chercheur).

Bien sur, il faut pondérer ici le fait que certaines données sont sensibles de part leur nature et que la mise à disposition ou la diffusion est complexe et nécessite des barrières mobiles parfois très longues.

En france, il existe des initiatives intéressantes, encore trop peu soutenues financièrement, mais cela avance, cela se structure et des formations, pour les chercheurs et enseignants-chercheurs, voient le jour tel que l’université d’été de l’édition scientifique ouverte, qui aura lieu en septembre 2009, ou bien l’école thématique des centres nationaux de ressources numériques du CNRS dont le wiki est en ligne avec toutes les communications, les bibliographies numériques, en ligne, etc.

Alors, en ce mois de juillet, j’ai envie de dire : « ouvrez vos données à vos collègues et au monde » et j’espère aussi, soyons fou, un donnees.gouv.fr ?

Il est temps, dirons certains, que je parte en vacances.

Stéphane.

Avoir le temps

Bonjour,

Le sp.Blog est-il mort ? Mon silence actuel est proportionnel au temps que je passe à faire mon vrai métier d’ingénieur d’études qui ressemble parfois, et de plus en plus, à un chemin de croix, doublé d’un slalom géant avec des tireurs d’élites postés dans les sapins. Accompagner la recherche est un métier passionnant, surtout quand vous travaillez dans la structuration d’un domaine tel que le mien et nouveau en France, les digital humanities. L’apport du numérique dans la recherche en SHS change une chose principale : le rapport au temps. Il est dur de résister aux sirènes de la communication scientifique directe immédiate, aux projets de recherche « flash », etc. Donc, maintenir un projet structurant long, faire de l’appropriation de modèles, de techniques et d’outils, suivre des dizaines de projets quand l’équipe de recherche n’existe plus, bichonner un site ou un serveur web orphelin de ces pères fondateurs, etc. n’est pas choses très évidente. Bref, ce que le numérique change c’est le temps.

Vous l’aurez compris, j’ai donc moins de temps.

Stéphane.

digital humanities in Orleans

Bonjour,

Tout en préparant un billet (depuis noël, aie aie aie) sur un outil d’encapsulage des méta-données dans une image avec les possibilités offertes par le format XML couplé à du Dublin Core, j’ai eu l’honneur d’intervenir dans le séminaire de recherche sur l’édition électronique et les digital humanities nouvellement créé par Richard Walter à l’Institut de Recherche et d’Histoire des Textes du CNRS (Orléans). J’ai partagé la première séance de ce séminaire avec Michel Jacobson (DAF ; CNRS), responsable du Centre de Ressources pour la Description de l’Oral (Paris), un centre de ressources numériques du CNRS au même titre que celui que j’anime sur les données iconographiques. Un compte-rendu de ce séminaire a été écrit par Constance Krebs dans son blog amontour.net. Les digital humanities « à la française » comme dirait lou burnard avancent encore un peu, se structurent, réfléchissent et je pense dans le bon sens.
A bientôt pour parler XMP, Dublin Core et Perl.

Stéphane.

Interdisciplinarité et humanités numériques

Bonjour,

Quelques réflexions après l’université d’été du très grand équipement ADONIS (Lyon, 3-4 sept. 2008), qui se met en place dans le monde de la recherche en sciences humaines et sociales et qui structure les humanités numériques (digital humanities).

La mise à disposition, sur le web, d’un corpus de documents numériques primaires (textes, images, données brutes issues de capteurs, etc.) pour la recherche en sciences humaines et sociales entraine la création d’une chaine de travail associant plusieurs métiers : le chercheurs, qui exprime un besoin et valide les informations sur le plan scientifique, le documentaliste qui prépare l’information et qui la rend inter-opérable à l’aide de méta-données, l’informaticien qui réalise des systèmes d’information capables de diffuser ces données et leurs méta-données, l’e-archiviste qui met en place une conservation des données numérique à long terme. Je me place ici dans le monde des données numériques dites « brutes » : donc dans la phase juste pré-éditoriale. Ce schéma est bien évidement théorique : il est rare, de nos jours, d’avoir tous ces métiers réunis autour d’un seul projet de recherche. Au niveau national ou d’un organisme cela pourrait être envisagé, mais, à ce niveau, un autre frein apparait : la difficulté du « travailler ensemble » entre partenaires venant de plusieurs établissements ou administrations. Mais les choses évolues très vite là aussi. Sans vouloir plaquer les mécanismes des méthodes industrielles sur d’autres domaines de la recherche scientifique, il est intéressant de noter tout de même les termes : « d’équipe », « diagramme de Gantt », « projet collaboratif », « colloque virtuel en ligne », commencent à se démocratiser chez les chercheurs et enseignants dans les sciences humaines et sociales.

Je pense que la notion de « chaine de compétences » présentée ci-dessus est la plus importante dans la réussite d’un projet de recherche collectif éprouvant le besoin de mettre en ligne des données afin de fédérer d’autres chercheurs ; qu’ils soient professionnels, étudiants, voir même des amateurs. Elle est souvent conditionnée par des locaux communs et qui font souvent défaut dans les sciences humaines et sociales (SHS). Une chaine de compétences doit répondre à une unité géographique, du moins au début, après quelques années, et une fois les normes bien appropriées par les acteurs, il est possible de virtualiser la chaine. La mise en place d’un projet de mise en ligne d’un corpus ou de diffusion, sur le web, d’une collection de documents numérisées entraine des phases de recherche, de production, de rendus et de valorisation des données : un processus doit répondre à un ou plusieurs cahiers des charges. A ce stade, il est intéressant d’aller chercher des conseils et des idées chez des professionnels d’autres domaines : dans les grands centres de calcul et de stockage. Là, les choses changent, les humanités numériques (digital humanities) prennent une nouvelle dimension. La chaine des compétences intègre de nouveaux domaines : les hautes disponibilités, l’OAIS, etc. Les humanités numériques sont au service de la recherche en SHS et elles font de l’interdisciplinarité une réalité et au sens large du terme.

Stéphane.

Erudition en réseau

L’École de l’érudition regroupe quatre institutions françaises (1) spécialisées dans l’étude, la recherche et la formation aux disciplines scientifiques de l’histoire et de l’érudition. Les stages, enseignements semestriels, séminaires de recherche, conférences et journées d’études fédérés dans ce réseau ont pour objectif d’aider les étudiants à mieux connaître les sources pour l’histoire de l’Occident et du monde méditérranéen, entre la fin de l’Antiquité et la naissance du monde moderne (ve-xviie siècle).

(1) : École Nationale des Chartes ; CESCM ; École Pratique des Hautes Études ; Institut de Recherche et d’Histoire des Textes

e-rudition : acte 1

Le chemin, c'est l'endroit où l'on passe Nous réfléchissons avec des collègues sur la notion d’érudition à l’heure des masses de données numériques.

La gestion d’une masse importante de données numériques est une chose nouvelle dans certaines branches des sciences humaines et sociales (SHS). Familière en physique, en sciences de l’univers et même depuis quelques années en archéologie, cette notion de masse impose parfois un changement dans la façon de mener les projets de recherche. Si le travail solitaire en archive et en bibliothèque existe toujours, il est également possible de bâtir des projets de recherche ayant pour corpus plusieurs milliers de documents nativement numériques. Ces projets sont le plus souvent collectifs car la numérisation et/ou la gestion de documents numériques – dont le support de conservation peut-être multiple (une photo et un enregistrement sonore peut être sur un même support : un disque dur, une carte mémoire, un CDROM, etc ; je revois le lecteur à la leçon inaugurale en vidéo de Gérard Berry, titulaire au Collège de France de la chaire d’innovation technologique – Liliane Bettancourt) – entraine la mise en place d’une chaine de traitement de ces données regroupant plusieurs savoirs-faire. Si l’un fait défaut, la chaine peut être compromise. Ce n’était pas le cas lors du travail solitaire du chercheur en bibliothèque, sauf si cette dernière disparait ou brule. La masse des données entraine donc une gestion « en équipe » des projets.

La préservation des grandes masses de données numériquement natives, que nous appellerons ici numnatives, soulève une autre question : la fragilité de ces dernières – si facilement effaçables – oblige les personnes y travaillant dessus à utiliser des moyens de stockage et de traitement nouveaux, du moins pour certains domaines. Ainsi apparaît, dans les SHS, la notion de grille de stockage et de calcul pour traiter les masses de données : calculer une surface de polygones à partir d’un nuage de points issus d’un scanner 3D (traitement de façades), traitements 2D/3D dans les systèmes d’information géographique, systèmes de zooms dynamiques sur les images 2D sous PHP/GD, etc. Avec les masses de données, ce qui change, ce sont aussi les besoins de traitement. Ceci entraine un travail obligatoirement collectif, car un chercheur ne peut développer ce type de structure de travail que dans un espace collectif de travail et dans un esprit de partage des données sources non-traitées : on ne monte pas un centre de calcul – donc une chaine de compétences – pour une seule personne. Les masses de données brutes, non traitées, perdront ainsi peu à peu ce curieux statut de « propriété personnelle » de M. ou Mme X. Les données numnatives collectées par une équipe seront petit à petit versées dans de grands réservoirs de données, le plus souvent inter-institutionnels et seront utilisables par plusieurs chercheurs en même temps et travaillant dans plusieurs équipes respectives.

Dans ce contexte, l’érudition sur un domaine, intègre des notions nouvelles : la virtualisation des données, donc la déconcentration des sources du savoir et la notion de flux, donc le pas de temporalité. Il ne s’agit plus de savoir où sont les sources, mais comment les traiter et comment en traiter autant.

Ceci est le point de départ, selon moi, de ce que nous pourrions appeler l’e-rudition.

Photo : Stéphane Pouyllau, Un chemin dans les monts du Caroux, « le chemin, c’est l’endroit où l’on passe ».