Le chemin, c'est l'endroit où l'on passeNous réfléchissons avec des collègues sur la notion d’érudition à l’heure des masses de données numériques.

La gestion d’une masse importante de données numériques est une chose nouvelle dans certaines branches des sciences humaines et sociales (SHS). Familière en physique, en sciences de l’univers et même depuis quelques années en archéologie, cette notion de masse impose parfois un changement dans la façon de mener les projets de recherche. Si le travail solitaire en archive et en bibliothèque existe toujours, il est également possible de bâtir des projets de recherche ayant pour corpus plusieurs milliers de documents nativement numériques. Ces projets sont le plus souvent collectifs car la numérisation et/ou la gestion de documents numériques – dont le support de conservation peut-être multiple (une photo et un enregistrement sonore peut être sur un même support : un disque dur, une carte mémoire, un CDROM, etc ; je revois le lecteur à la leçon inaugurale en vidéo de Gérard Berry, titulaire au Collège de France de la chaire d’innovation technologique – Liliane Bettancourt) – entraine la mise en place d’une chaine de traitement de ces données regroupant plusieurs savoirs-faire. Si l’un fait défaut, la chaine peut être compromise. Ce n’était pas le cas lors du travail solitaire du chercheur en bibliothèque, sauf si cette dernière disparait ou brule. La masse des données entraine donc une gestion « en équipe » des projets.

La préservation des grandes masses de données numériquement natives, que nous appellerons ici numnatives, soulève une autre question : la fragilité de ces dernières – si facilement effaçables – oblige les personnes y travaillant dessus à utiliser des moyens de stockage et de traitement nouveaux, du moins pour certains domaines. Ainsi apparaît, dans les SHS, la notion de grille de stockage et de calcul pour traiter les masses de données : calculer une surface de polygones à partir d’un nuage de points issus d’un scanner 3D (traitement de façades), traitements 2D/3D dans les systèmes d’information géographique, systèmes de zooms dynamiques sur les images 2D sous PHP/GD, etc. Avec les masses de données, ce qui change, ce sont aussi les besoins de traitement. Ceci entraine un travail obligatoirement collectif, car un chercheur ne peut développer ce type de structure de travail que dans un espace collectif de travail et dans un esprit de partage des données sources non-traitées : on ne monte pas un centre de calcul – donc une chaine de compétences – pour une seule personne. Les masses de données brutes, non traitées, perdront ainsi peu à peu ce curieux statut de « propriété personnelle » de M. ou Mme X. Les données numnatives collectées par une équipe seront petit à petit versées dans de grands réservoirs de données, le plus souvent inter-institutionnels et seront utilisables par plusieurs chercheurs en même temps et travaillant dans plusieurs équipes respectives.

Dans ce contexte, l’érudition sur un domaine, intègre des notions nouvelles : la virtualisation des données, donc la déconcentration des sources du savoir et la notion de flux, donc le pas de temporalité. Il ne s’agit plus de savoir où sont les sources, mais comment les traiter et comment en traiter autant.

Ceci est le point de départ, selon moi, de ce que nous pourrions appeler l’e-rudition.

Photo : Stéphane Pouyllau, Un chemin dans les monts du Caroux, « le chemin, c’est l’endroit où l’on passe ».