Diffusion et édition de bases de données (1)

Bonjour,

La construction des savoirs passe par l’échange, la discussion, la critique et le partage. A l’heure ou l’on utilise la compétition entre les acteurs du monde des sciences pour démanteler les structures recherche, de plus en plus de données : primaires, secondaires ou/et tertiaires sont diffusées ou éditées en ligne sur le web. Dans un précédent billet je tentais, assez maladroitement, de dresser une mini chronologie des digital humanities « à la française » comme dirait Lou Burnard et ce depuis l’arrivée du vecteur web. Ce découpage n’est pas si simple car les acteurs des SHS ne sont pas tous dans une case bien précise. L’appropriation des méthodes et des bonnes pratiques de l’édition électronique sur support web est très inégale et la notion même « d’édition électronique » fait débat : beaucoup de chercheurs dissocient même l’action « d’éditer » du monde du web : un peu comme si le web ne méritait pas d’avoir ses éditeurs et l’idée même de qualité dans l’édition électronique semble parfois impossible à imaginer chez certains. Il faut donc faire œuvre de pédagogie et reprendre nos bâtons d’évangélisateurs pour diffuser les bonnes pratiques de ce domaine, savant mélange de ce qui se fait ailleurs et de ce que nous savons faire de façon collective.

Lors d’une journée d’information organisée par le Centre national de la recherche scientifique (CNRS) à Ivry-sur-Seine, Thierry Buquet, webmaster de l’Institut de recherche et d’histoire des textes (l’IRHT est un laboratoire du CNRS), réalisa un état de l’art de l’édition électronique dans les SHS en 2009 : il indiquait alors le fait que certains « chercheurs éditent des bases de données ». Dans le trop petit monde des humanités numériques, tout le monde comprend presque instantanément ce que cela veut dire et implique et surtout le fait que l’action d’éditer une BDD revient à fabriquer une « vue », un « regard » sur des méta-données ou des données, à un instant « T » : ce sont ces vues qui sont éditées. Les données ont pu être collectées il y a très longtemps, ou bien hier, et elles vont continuer à évoluer dans le temps. Il faudra les pérenniser, les archiver un jour… Ainsi la BDD est un réservoir dont l’une des vocations est de donner accès à de l’information au travers de méta-données (notices bibliographiques par exemple) ou directement de « données brutes » (des données spatiales, des données historiques, etc.) soit à un moment « T » via une édition électronique statique (PDF, etc.), soit via un accès « en flux » via une interface web de recherche par exemple ou via un flux d’information de type syndication (RSS, Atom, etc.), nous pouvons parler là d’édition dynamique des données. Dans ce dernier cas, les informations sont rendues accessibles juste après validation par le chercheurs ou du moins celui qui a l’autorité de valider des informations, mais le contenu de la BDD est vivant : de nouvelles données arrivent, certaines sont corrigées, d’autres supprimées (ce qui pose un problème pour les futurs historiens des sciences), etc. Il s’agit de bien faire la différence entre le fait de stocker de méta-données et des données et de mettre en place des moyens d’éditions de ces éléments. Éditer une BDD consiste donc à créer des vues, des regards, souvent multiples sur ensemble contenu dans un système d’information ou simplement dans un gestionnaire de bases de données.

Cependant, le flux n’est qu’une répétition de « vues à l’instant T » dont le cycle peut-être très court : quelques minutes, secondes, etc. Cette notion de diffusion des « informations en cours de traitement » (data in progress) est assez nouvelle pour les chercheurs des sciences humaines et sociales et elle peut être perçue de façon contradictoire par certains d’entre eux, plus habitués à communiquer seulement les résultats de la recherche qu’une combinaison de résultats étayés par les sources. Concevoir la BDD en SHS comme un réservoir évolutif de méta-données ou de données et en éditer des vues à l’instant « T », permet d’associer à un article les information sources ayant été utilisées dans celui-ci. Cela permet aussi de diffuser plus largement des données vers d’autres collègues, etc.

Mais il y a un revers à la médaille : l’abandon de BDD après la publication finale d’une recherche (c’est le cas dans les projets ANR qui sont plus court que les grands programmes des années 70-90). Avec le numérique et l’obsolescence des formats, logiciels, etc. cela provoque (provoquera) une perte de données. Il faut donc réfléchir en amont à la pérennisation/archivage et aux valorisations futures des BDD construites sur le modèle réservoir/vues. Une piste pour anticiper ces questions : application de certaines méthodes de travail très simples :

  • études, rapport d’étonnement, veille
  • gestion de projets (scénarii pour atteindre l »objectif final, planning, budget)
  • étapes de travail (objectifs à atteindre)
  • validation intermédiaire (audits internes)
  • évaluation des risques

associée à :

  • l’utilisation de standards internationaux normalisés pour l’encodage des données
  • l’utilisation de formats « ouverts » (dont les algorithmes sont ouverts, libres, et bien documentés, etc.)
  • la réalisation d’un effort pour intégrer des outils structures mutualisées.

permet assez facilement de construire et de diffuser des BDD dans le domaine des SHS. Cette réflexion et cette mise en œuvre de solutions, dans les équipes de recherche SHS, c’est le métier des ingénieurs, assistants ingénieurs en humanités numériques, mais c’est aussi celui des documentalistes et e-documentalistes, des bibliothécaires, des informaticiens.

Comprendre cette notion de réservoir d’information prenant la forme de méta-données ou de données (data in progress) et la possibilité de créer des vues multiples – qui elles peuvent être éditées et liées à un ouvrage numérique ou un article – est un point fondamental dans le déroulement d’un programme de recherche. L’édition d’une BDD ne peut se limiter à la mise en place d’un formulaire de recherche, à l’élaboration d’une maquette graphique pour en visualiser les résultats et en faire la promotion ; il faut concevoir les BDD comme des réservoirs capables de diffuser des flux de méta-données ou de données ayant de multiples formes, mais utilisant des formats connus, standards, et donnant accès à de l’information évolutive et validée par versions progressives. Cela nous amènerait-il plus facilement vers le web de données ?

Bien sur toutes les BDD n’ont pas cette vocation, certaines sont uniquement personnelles : le temps d’un article ou d’un ouvrage, mais force est de constater que le nombre de BDD personnelles (sous FileMaker Pro par exemple), qui ont tendance à évoluer vers une BDD « pour le web », est en progression constante depuis quelques années. C’est bien pour la construction des collectives des savoirs et cela fait avancer l’idée de l’importance de la pérennisation des données : mais attention à ne pas déraper dans sens inverse.

Les BDD ne sont pas des livres, mais de nos jours, elles permettent d’en faire. Les BDD ne sont pas des livres et donc elles ne se posent pas, comme un livre, sur l’étagère d’une bibliothèque.

Dans la partie 2, je présenterai la notion d’interopérabilité entre les BDD, que je détaillerai lors de l’université d’été du Centre pour l’édition scientifique ouverte (CLEO).

Stéphane.

Précédent

Des données brutes 2.0

Suivant

Hier soir, j’ai vu Uranus

1 Commentaire

  1. Jean-Marie Fontaine

    Bonjour,

    Merci pour ce billet très intéressant sur la vie quotidienne des bases de données dans le secteur des sciences humaines. Je pense que celui des sciences sociales et légèrement différent (BDD plus collectives), mais, je me retrouve assez bien dans votre description des choses.

    Jean-Marie F

Les commentaires sont fermés

Fièrement propulsé par WordPress & Thème par Anders Norén