Les données numériques des SHS entrent dans le web de données

Avec l’ouverture d’isidore (réalisée par le très grand équipement Adonis du CNRS) les données numériques des sciences humaines et sociales entre dans le web de données et vont bientôt rejoindre le linking open data cloud diagram ou « Lod » maintenu par Richard Cyganiak (DERI, NUI Galway) and Anja Jentzsch (Freie Universität Berlin), en tous cas, je l’espère.

Isidore est une plateforme de recherche permettant la recherche d’information dans les données numériques des SHS, quelles soient sources pour faire de la recherche ou bien publications des résultats de la recherche. J’ai le plaisir de co-diriger ce projet avec Jean-Luc Minel dans le cadre de l’équipe du Adonis, le très grand équipement du Centre national de la recherche scientifique.

Je profite de ce petit billet « auto-promotionnel » pour remercier Gautier Poupeau (alias Got) sans qui ce projet n’aurait pas pu être conçu et réalisé ainsi que toute l’équipe du centre pour la communication scientifique directe (Laurent Capelli, Philippe Correia, Loic Comparet, Yannick Barborini et Daniel Charnay) qui participe à ce beau projet.

Isidore moissonne des métadonnées et des données selon les protocoles OAI-PMH, des signalements d’actualités via RSS et Atom, des données structurées selon RDFa et peut se connecter à des catalogues de bibliothèques SRU/SRW (z3950). Isidore enrichit ces données en les croisant, en les qualifiant avec des thésaurii, des référentiels, des listes d’auteurs et les ré-exposent selon les principes du linked data. Pour utiliser ces données, un site web a été créé : www.rechercheisidore.fr. Vous pouvez donc interroger les articles de Revues.org, Cairn, Persée, les ouvrages, textes, images de Gallica, HALSHS, MédiHAL avec un seul formulaire et avec des liens entre toutes ces données.

Dans isidore, les métadonnées sont transformées en RDF, ainsi les données des shs entrent dans le web de données.

Mais nous sommes en version béta, alors le travail continu.

Stéphane.

La communauté française des digital humanities

THATCamp Paris 2010, sur la Baleine blanche - Crédits : Elodie Picard / CC

Après deux jours d’ateliers, démos, débats, discussions le THATCamp Paris 2010, la non-conférence sur les digital humanities, lance le Manifeste des digital humanities. Ce texte, fondateur de la communauté des digital humanities en France est très important. Il a permis tout d’abord de répondre à la question posée dans le THATCamp : « voulons-nous travailler ensemble ? ». La réponse est largement positive à mon sens.

Ce besoin de travailler ensemble est partagé par tous, et nous avons vu qu’il dépasse bien évidement les cadres institutionnels actuels. C’est une vision personnelle, mais ces derniers me semblent peu adaptés au développement d’une communauté qui a conscience que les actions locales se font mieux si elle s’appuient sur des structures nationales mutualisées (ex. grilles de calcul, infrastructures d’hébergement de données, services d’archivage de données numériques). J’invite tous les lecteurs de ce blog, qui soient ou qui se sentent acteurs des digital humanities à signer ce Manifeste qui pose les bases claires d’une communauté se donnant des objectifs précis.

Je pense en particulier aux documentalistes qui sont dans les laboratoires de recherche des sciences humaines et sociales, et dont certains étaient au THATCamp Paris 2010, mais que je trouve toujours trop absents de ces moments de réflexion sur l’évolution des métiers, méthodes, etc. Les documentalistes font un travail de production sur le terrain très important. Au delà des centres de documentation et des bibliothèques de recherche, certains coordonnent réellement des projets de recherche sur le plan documentaire et donc sont pleinement dans les problématiques dont nous avons discutées lors de ces deux jours.

Par exemple, le point 14 du Manifeste propose de construire, de façon itérative, des cyberinfrastructures correspondant à des besoins réels. Voici un chalenge difficile, pris entre les intérêts des économies locales de la recherche proches des chercheurs (Universités, Maisons des sciences de l’homme par exemple) et ceux « inter-nationaux », européens par exemple, pourtant nécessaires mais complexe à comprendre tant il est difficile pour un chercheur de s’y projeter.
Un exemple a été pris par Got sur les questions de l’archivage des données numériques (la mémoire du XXIe siècle). Il faut accepter de faire confiance à une autre institution, à une autre personne, pour archiver ses propres données, issues d’une collecte qui a pu prendre, parfois, toute une vie. « Accepter de faire confiance » c’est avant tout reconnaitre que l’on est pas compétent pour traiter tel ou tel sujets, ou techniques, ou méthode. Cela ne veut pas dire que l’on va perdre « la main » sur les données (les mécanismes de contrôle d’accès existent et sont fiables). Cela ne veut pas dire non plus qu’il ne faut pas tenter de comprendre (loin de moi l’idée de saucissonner les métiers et les taches), mais c’est reconnaitre qu’à un moment, il faut accepter de faire 10 à 15% d’un travail pour lequel l’on ne sera pas reconnu, qui ne comptera pas dans son évaluation personnelle, afin de transmettre à un autre de l’information afin qu’il l’archive, la traite, l’édite, la valorise, la distribue, etc. et vous la repasse parfois pour en faire autre chose. C’est l’un des enjeux majeur du Manifeste selon moi. Les cyberinfrastructures seront ce que nous en ferons, pour cela il faut accepter de faire 10 à 15% du chemin vers le collègue (l’ingénieur ou le chercheur) qui a une ou plusieurs compétences et donc qui a un Métier. C’est aussi considérer que ce qu’il fait est égal à ce l’on fait. Publier un article dans une revue de rang A est égal à concevoir un logiciel permettant de calculer des résultats à partir de données : la seconde tache permettant de faire la première, la première est dépendante de la seconde et la seconde sans la première dans pas de finalité réelle (exception faite pour les questions d’archivages).

Pour moi, il s’agit là d’une formidable aventure que la communauté des digital humanities, rassemblée autour du Manifeste, doit mener.

Crédits photos : Elodie Picard/CLEO-Revues.org – Licence Creative Commons : Attribution-NonCommercial-NoDerivs 2.0 Generic

digital humanities : le tournant et la eSHSgrid

L’école thématique sur la préservation et diffusion numériques des sources de la recherche en sciences humaines et sociales, organisée par les centres de ressources numériques du CNRS propose une formation aux humantiés numériques (digital humanities) en matière d’édition de sources pour la recherche scientifique en sciences humaines et sociales. Les 30 personnes qui sont ici suivent plusieurs ateliers sur l’informatisation des données manuscrites, iconographiques, orales.

La communauté des digitals humanities se structure, se parle, travaille. La mise en ligne de collections iconographies, la création d’entrepôts de données « images » et « visuelles » (y compris les modèles 3D) n’est plus envisagé sans la structuration de l’information : fichiers RAW, fichiers TIF, vignettes à la volée en JPEG, calculateurs de rendu, métadonnées XMP (ou encore en IPTC), EXIF, MIX, METS, DC. Belle avancée ! Les choses doivent encore se préciser mais le numérique est aujourd’hui au cœur d’un très grand nombre , c’est le « digital turn » ou tournant digital proposé par Paul Bertrand. Les sources numérisées vont laisser la place – de plus en plus – aux sources numériques structurées, c’est aujourd’hui une quasi-réalité et presque du passé et le XML, les normes, l’open-source sont au coeur du digital turn. Un e-chercheur sera l’utilisateur de ces corpus hybrides structurés, virtualisés, accessibles à tous les chercheurs au travers, tel les données du LHC, d’une eSHSgrid et constitué, non pas pour une utilisation individuelle, mais génératrice de publications multiples, papiers, mais aussi de plus en plus elles-mêmes électroniques. Cette eSHSgrid garantie le socle d’accessibilité aux données.

Le wiki de l’Ecole est actualisé en permanance par les participants.

Stéphane.

Equipes Numériques : nouveaux métiers, nouvelles structures

Ce billet s’appuie sur le texte de Pierre Mounier disponible en ligne sur l’Unité Numérique de l’ENS LSH.

 

La diffusion de sources historiques sur le web est en augmentation et la demande est de plus en plus forte. Les étudiants, au niveau master par exemple, seront dans quelques années, les principaux utilisateurs des sources historiques numérisées et disponibles en ligne (web et entrepôts OAI). Le signalement de ces sources s’améliore de jours en jours même si de nombreux sites ou entrepôts de données restent « isolés » (notion curieuse pour le web je vous l’accorde). Après l’époque des sites web offrant des sources numérisées, nous sommes dans celle des entrepôts, et des méta-entrepôts. Aujourd’hui, tout le monde fait de la rétro-numérisation de sources : bibliothèques, services d’archives, laboratoires de recherche, projets de recherche. Même un chercheur isolé demande de plus en plus une copie numérisée d’une source et si possible envoyée à son adresse électronique. Depuis quelques années, des présentations PowerPoint, « augmentées » de sources numériques, fleurissent dans les TD des universités et les plateformes d’enseignement à distance. Dans le monde de la recherche scientifique en sciences humaines et sociales, c’est aujourd’hui une évidence, les sources numérisées sont partout.

Depuis quelques années, la demande devient également importante. Aujourd’hui, les chercheurs publient des articles dans des revues électroniques, déposent dans les archives ouvertes et associent, ou le feront bientôt, à leurs articles des fac-similés numériques (manuscrits, collections de photos, etc.). Face à cette demande, des méta-entrepôts sont en construction. Ils sont souvent la partie immergé de méta-portails disciplinaires. La tendance actuelle et à l’interconnexion de ces méta-entrepôts à l’aide protocoles fondés sur : des normes communes, des briques technologiques communicantes et utilisant les canaux naturels du web (http, etc.).

Dans les sciences humaines, ces méta-entrepôts sont créés la plupart du temps par les équipes IT regroupant des ingénieurs, des techniciens spécialisés en information scientifique et techniques (IST), en documentation et archivistique et des chercheurs (voir le billet de Pierre Mouier sur l’Unité Numérique). En lisant ce billet, je me suis aperçu que mon équipe IT – le CRHST et son centre de ressources numériques (le CN2SV) – avait un rôle assez semblable finalement et je me suis assez bien reconnu dans ce paragraphe de Pierre Mounier :

« Pour dire les choses brutalement, l’Unité Numérique est une structure nouvelle qui répond à une situation nouvelle. On peut penser qu’elle est une manière particulière, comme d’autres le font différemment ailleurs, d’inventer un nouveau métier, celui d’éditeur numérique. Elle ne pourrait faire ni l’un ni l’autre (répondre à la situation et inventer un métier) si son centre de gravité se déplaçait et la faisait tomber de l’un ou l’autre des côtés (dans une bibliothèque, un service informatique ou une maison d’édition traditionnelle). »

Un nouveau métier ? Oui, j’en suis persuadé depuis quelques temps, c’est bien un nouveau métier avec ces formations et ces réseaux. A nouveau métier, nouvelles structures ? Bien évidement. Elles font de l’informatisation des données, de l’ingénierie documentaire, de la re-documentarisation de sources, de l’édition électronique et elles inventent et adaptent des outils informatiques pour des projets de recherche. Elles sont le lien, grâce à la veille technologique, entre les contenus des grandes bibliothèques numériques et les besoins des chercheurs. Je rejoints également Pierre Mounier sur l’idée suivante :

« … le principe du respect de l’autonomie scientifique et éditoriale des équipes de recherche avec lesquelles le travail est fait. Et l’application de ce principe est un peu une quête du Graal car il ne se résume évidemment pas à laisser les chercheurs tout faire par eux-mêmes. Il s’agit bien plutôt de faire en sorte que les choix qui sont faits et les actions techniques qui sont déléguées à l’Unité Numérique ne se traduisent pas par une dépossession et finalement une trahison des projets de recherche. Il faut donc pour chaque projet, en fonction du type de réalisation et de demande, mais en fonction aussi des particularités propres à l’équipe qui la porte, imaginer un dispositif qui mixe un choix d’outils appropriés, une bonne répartition des tâches et des niveaux de décision et une dose variable de formation des équipes de recherche aux technologies numériques. A ma connaissance, mais je peux me tromper, la composition du cocktail n’est pas totalement standardisable et ne peut faire l’objet de procédures automatiques. »

Pour ma part, et depuis que je travaille dans ce domaine du CNRS, je pense que l’accompagnement des chercheurs dans leurs projets doit s’appuyer sur :

  1. Un respect éditorial du projet porté par l’équipe de recherche (ER)

  2. Une implication de l’ER, par l’initiation, l’information et la démonstration, dans les problématiques propres à l’équipe IT. Ainsi elle comprend mieux les contraintes (techniques, financières, etc.) et les choix réalisés.

  3. Un respect des formats ouverts, tant sur le plan des logiciels que sur les formats de stockages des données

  4. L’établissement de phases de production qui prennent en compte la pérennité des données et des réalisations (en collaboration avec d’autres organismes pour les productions web par exemple)

Ce sont les quatre principales règles que nous respectons au CRHST et dans le cadre du CN2SV, elles sont proches de celles de l’Unité de Pierre Mounier. Je pense qu’elles doivent être utilisées ailleurs, dans d’autres équipes adossées à d’autres institutions, et j’en suis heureux. Ce nouveau métier et ces structures nouvelles au service des sources numérique en ligne, ouvrent sans aucun doute, de nouveaux horizons pour la recherche scientifique.

Alors, 2008, année zéro ?