shs – Archives du blog de Stéphane Pouyllau

J’ai participé au colloque « Nouvelles archives numériques au Proche-Orient : le son, l’image, le film et le web » organisé à Beyrouth par l’Institut français du Liban, des universités Aix-Marseille Universitéet l’Université libanaise, laMaison méditerranéenne des sciences de l’homme(MMSH) et l’Institut français du Proche-Orient. Le thème du colloque m’a plongé pendant quelques jours sur les méthodes de constitution des matériaux de recherche issus des terrains des historien·nes, géographes, archéologues, sociologues et ethnologues.

Ouverture du colloque « Nouvelles archives numériques au Proche-Orient : le son, l’image, le film et le web » à la bibliothèque nationale du Liban — Photo S. Pouyllau, 29 mai 2019.

Le programme, très riche, m’a fait pas mal réfléchir sur les besoins méthodologiques et d’outillage pour les chercheurs et doctorants. C’est encouragement et une piqure de rappel, du terrain, pour un travail un peu réflexif sur ce que nous avons monté depuis 10-15 autour des infrastructures de recherche (OpenEdition, Huma-Num, etc.). Les « nouvelles archives » (matériaux des réseaux sociaux, vidéos Youtube, sites Web, etc.) sont des traces fragiles : en raison des politiques des plateformes, en raison des techniques utilisées pour les construire mais aussi et enfin en raison des pratiques des chercheur·es (gestion de leurs stockages, de leurs bases de données, etc).

Elles sont fragiles aussi — naturellement, par les aléas politiques et géopolitiques d’une région complexe. En ce sens la conférence très dynamique de Carla Eddé (historienne et vice-rectrice pour les relations internationales à l’Université Saint-Joseph) sur « Archives, mémoire, histoire » a très bien montré la construction actuelle (et la non-construction) de la mémoire du Liban contemporain, de la mémoire de la guerre civile du Liban (1975-1990) autour de la question « des gouts de l’archive » dans le Liban d’aujourd’hui. En ce sens j’y ai vu des connexions avec le programme de recherche « Le goût de l’archive à l’ère numérique ».

La fragilité des données numériques et leurs mises en archive, ont été particulièrement bien illustrés par les communications de Cécile Boex (EHESS, Césor) sur « Archiver les vidéos vernaculaires de la révolte et du conflit en Syrie : enjeux éthiques et politiques » et Zara Fournier (doctorante en géographie à l’université de Tours, labo CITERES) sur « Désirs d’ailleurs et d’avant : les militants de la mémoire et le Web au Sud du Liban ». En conclusion, la question de la compréhension et de la maitrise des méthodes numériques pour la bonne gestion des données de terrain, mais aussi la compréhension des interconnexions des outils forgés a été très bien résumée par Kamel Doraï, directeur du département des études contemporaines de l’Ifpo.

Ponctué de projection de film, dont l’impressionnant « Tadmor » de Monika Borgmann et Lokman Slim (bientôt en salle à Paris). J’espère que le colloque donnera lieu à une publication d’actes, ou des enregistrments qui ont été effectué par Jean-Christophe Peyssard (Ifpo) et Véronique Ginouvès (MMSH).

Le programme détaillé du colloque est disponible sur le site : https://nanpo.sciencesconf.org.

Le web de données est une évolution du web actuel vers un web contenant des données structurées et si possible liées entre elles grâce à l’utilisation de standards documentaires et informatiques internationaux. Les informations contenues dans ces données sont également organisées, structurées, par l’utilisation de schémas (de structuration) dont le plus simple reste le dublin core element set (dit « dublin core simple »). Mais le web de données permet justement de s’affranchir de la contrainte de l’utilisation universelle du DC et de marier plusieurs schémas. Ainsi, dans un futur proche, c’est le web lui-même qui deviendra (en fait, qui devient) une base de données mondiale, structurée et pérenne.

Quel est la différence entre « diffuser sa base de données sur le web » et participer ou construire le web de données ?

Tout d’abord participer à la construction du web de données veut dire que l’on diffuse des données et pas uniquement les métadonnées ou les notices. Cela veut dire que l’on « ouvre » les données au public. L’ensemble des données utilisées par les enseignants et les chercheurs sont concernées quelles soient conservées dans les archives ou bien qu’il s’agisse des données produites par les chercheurs eux-même (enquêtes, articles, ouvrages, photographies, plans, cartes, notes de terrains, …). Il y a bien évidement des questions de confidentialité de l’information mais il est classique aujourd’hui d’appliquer des barrières mobiles aménageant des périodes d’embargo temporels et/ou disciplinaires. Construire le web de données c’est affirmer que l’on va, tout de suite ou dans quelques temps, ouvrir ses données. S’il existe une période d’embargo, il faut dire quand elle se terminera. Par exemple dans MédiHAL, l’archive ouverte de photographies et d’images scientifiques lancée par le CNRS, il est possible de placer une image sous un embargo de 3 ans, ainsi l’image jpg ou tif sera accessible dans 3 ans, en attendant la notice est publique. Dans l’interface et dans les flux OAI-PMH de MédiHAL est indiqué la disponibilité de la données.

Ouvrir ses données, pourquoi faire ?

Principalement, pour avoir accès à une assiette de données plus large permettant de traiter plus d’information afin de valider plus profondément telles ou telles théories ou idées tout en étant capable d’étayer le propos de synthèse en donnant accès à toutes les sources (ou preuves). Depuis 1999, avec l’arrivée des méthodes et protocoles d’interopérabilité des données tel que l’OAI-PMH, une première marche vers le web de données a été franchie : des moteurs de recherche collectent des métadonnées dont la citabilité et l’accès sont pérennes (c’est à dire que les diffuseurs – institutions ou personnes – se donnent les moyens de maintenir et de garantir l’accès) donnant ainsi accès a des données en ligne (textes, images, inventaires de fonds d’archives, articles, ouvrages, etc.). La seconde marche est encore devant nous, nous devons apprendre à structurer systématiquement toutes les données qui sont utiles aux chercheurs pour travailler : ainsi nous devons les qualifier. Les chercheurs, aidés par les bibliothécaires et documentalistes qui sont en première ligne, doivent aider, par exemple, au développement de nouveau outils d’enrichissement des données.

Ouvrir ses données c’est aussi vouloir partager et échanger avec d’autres chercheurs, mais aussi avec la communauté des digital humanties. C’est d’autant plus important que certaines données, utilisées voir collectées par les chercheurs, sont publiques. Bien sur, la recherche est un monde de compétition où les données sont stratégiques, mais je me positionne ici dans le cas de données des SHS, peut-être moins stratégiques, surtout quand elles sont patrimoniales et dans le cadre de données ayant déjà été traitées, au moins partiellement. Pourquoi un doctorant ayant soutenu sa thèse, ne diffuserait-il pas, juste après sa thèse (et après l’avoir déposée elle aussi dans une archive ouverte tel que TEL par exemple) son corpus de sources ? Voir les données qu’il n’a pas eu le temps d’exploiter ?

Heureusement le mouvement est en marche : plusieurs projets, s’inscrivant dans le web de données, sont en cours de réalisation, quelques exemples issus de la communauté des digital humanities :

La structuration des billets des blogs de la plateforme hypotheses.org en RDFa

La réalisation de plateforme ISIDORE du TGE ADONIS

L’expression en RDF des autorités auteurs du catalogue SUDOC de l’ABES

Le développement des projets d’édition électronique de sources historiques utilisant la TEI, qui permet de structurer les textes.

La construction du web de données permettra-t-il de développer de nouveau axe de recherche ? sans doute, mais il apporte également une nouvelle façon de relier les chercheurs en eux de (re)-construire de nouvelles communautés.

Dans un prochain billet et pour illustrer cette notion du web de données par un cas concret, j’aborderai la structuration en RDFa des pages de consultation de la plateforme MédiHAL.

Étiquette : shs

Retour sur le colloque « Nouvelles archives numériques au Proche-Orient : le son, l’image, le film et le web »

Construire le web de données pour les shs avec les digital humanities