web sémantique – Archives du blog de Stéphane Pouyllau

Document structuré et écriture numérique : le bilan

Le 21 janvier dernier, j’ai terminé mon « cours » le cadre du master Documents électroniques et flux d’informations (dit « DEFI ») à l’université de Paris Nanterre. En juillet dernier, j’avais fait un petit billet pour annoncer le plan du cours et donner quelques pistes de lecture et d’outils que je voulais proposer aux étudiants. J’avais décidé alors de revoir entièrement la structure du cours et d’aborder plus directement et par la pratique l’utilisation des données et métadonnées structurées, collecter des informations via des API, des interfaces SPARQL, etc. Après cette dernière séance du 21 janvier, il est temps de faire un petit bilan.

Utilisation de Jupyter Hub le 17 décembre 2018 avec les masters DEFI 2018-2019. Photo : Stéphane Pouyllau

Vous l’avez sans doute noté, j’ai mis cours entre guillemets dans la première phrase. En effet, premier retour, je ne pense pas avoir fait un cours, ni dans sa forme, ni sur le fond. Première limite donc, la durée. En 24h d’enseignement, c’est très (trop) court pour faire vrai un cours je pense. L’expérience de cette année montre qu’il aurait fallu un peu plus (disons 35h) pour avoir le temps d’aborder correctement l’ensemble des questions, faire d’autres développements en Python ou utiliser des outils tel que OpenRefine (que j’avais envisagé en juillet), le tout en inscrivant ça dans l’histoire du numérique, du Web, etc. Nous l’avons abordé, mais trop sommairement. D’un coté je tiens a ce que mon enseignement reste pratique avec «les mains dedans».

Deuxième limite de mon « cours » fut sa densité : l’agrégation ou plutôt l’intégration des notions de données/documents structurés (XML, stérilisation RDF), les API, Python (dans Jupyter) et l’outil Jupyter lui même en 24h… C’était un peu ambitieux sans doute. Là, j’ai vraiment pu mesurer la difficulté d’aborder tout cela, même progressivement. J’ai voulu sans doute allé trop vite au début, du coup ça j’ai été court à la fin. Je précise que je ne suis pas un enseignant universitaire, même si je délivre des enseignements depuis 1995 (en IUT, puis en maitrise, master, à Bordeaux, puis à Paris), je ne suis pas un enseignant professionnel. C’est aussi en cela que mon enseignement n’est pas vraiment un « cours », ni complètement un TD. Alors comment le définir ? À la lumière de l’expérience de cette année, ça ressemble plus à une expérience, un cheminement où l’espace d’expérimentation est la base du travail : on explore les API, on découvre les données, leurs modèles et on bricole avec. ça permet par le faire, par le test de se poser des questions plus large, jusqu’à l’évolution des métiers de la données et du document numérique.

J’ai tenté de maintenir une structure de séance avec au début : un apports de notions générales (Qu’est-ce que le Web sémantique ? Qu’est-ce que SPARQL ? Quelles différences entre verbes d’API et requêtes SPARQL ? etc.) ; puis un temps de travaux pratiques (que j’appelle bricolage, dans le sens noble du terme) avec des focus ou des retours sur certaines notions vues en début de séance (ou aux séances précédentes). En terme de méthode, j’ai plus répété cette année afin de stabiliser les notions principales en insistant sur des notions clés (à lire d’ailleurs, ce très bon retour d’expériences sur les méthodes d’enseignements à l’université par Caroline Muller, mise en ligne par Christelle Rabier). Ainsi, je suis allé moins loin, mais nous avons — je l’espère, abordé au mieux les méthodes d’utilisation des données structurées.

Troisième limite, arriver à partager mon expérience avec les étudiants et là aussi, je vois de mieux en mieux la différence entre un cours par un·e enseignant·e universitaire (qui va mettre le recul, apporter des lectures, une position critique, épistémologique) et un retour d’expérience d’un professionnel de la données qui viens du Perl (le langage verbeux qui fait sourire les étudiants, si si), des données tabulées, etc. Cela dit, l’outil Jupyter a été je pense un bon levier pour partager ensemble les expérimentations que nous avons faites sur le SPARQL endpoint et API d’ISIDORE ou de NAKALA.

Malgré tout, nous avons réussi a développé de jolis «tableaux de bord» en Python sous Jupyter. Ici, quantifier la proportion des disciplines des 300000 billets des carnets de recherche de la plateforme Hypotheses.org :

Utilisation de Jupiter Hub pour les DEFI 2018-2019.

L’expérience de cette année me permettra, je l’espère l’an prochain, d’améliorer le rythme des 8 séances et le temps interne de chacune.

Je termine en remerciant l’ensemble des étudiants de cette promo 2018-2019 pour leur participation, leurs questions et leur patience. Mon «cours» est un peu à l’image de l’immense chantier en face de l’Université Paris Nanterre ;-)

Document structuré et écriture numérique

Ajout du 26 juillet, exemple de contenus du cours (version 0) :

Format Jupyter Notebook déposé sur gitlab Huma-Num

J’enseigne depuis quelques années à l’université de Paris Nanterre, en tant que « professionnel extérieur », dans le cadre du master « Documents électroniques et flux d’informations » (dit « DEFI »). Mon cours s’intitule « Document structuré et écriture numérique » et pour l’an prochain (2018-2019) j’en ai entièrement revue la structure.

Description du cours :

Le cours portera sur l’écriture numérique dans le contexte de l’open data et de la science ouverte (open science) car en effet de nos jours les publications (articles scientifiques, thèses, mémoires, rapports, littérature grise) embarquent des données issues de bases de connaissances, de bases de données, d’API, du Web sémantique. Dans ce contexte, les publications embarquent de nos jours non seulement du texte et des références bibliographiques, mais aussi des données (sérielles, documents, etc) et des programmes informatiques qui traitent ces dernières. Quel sont les enjeux de ces nouvelles forme de publication ? Comment « écrire » des programmes dans un document ? Quels rôles jouent les vocabulaires documentaires mais aussi les API et les SPARQL endpoint ? Quels sont les standards qui s’en dégagent ? Est-ce une nouvelle forme de publication ? Comment pérenniser ces documents ? A l’aide de données issues des projets ISIDORE, NAKALA, WikiData, le cours permettra d’acquérir :

Les enjeux des données dans la publication scientifique et technique (2 séances)
La conception de publications de données (2 séances)
Le traitement de données (2 séances)
La compréhension des vocabulaires documentaires structurés (1 séance)
Les enjeux de l’interopérabilité des métadonnées et données (1 séances)

Outils utilisés :

Jupyter notebook (http://jupyter.org) pour l’édition de « notebooks »

Pré-requis :

notions de Python

Bibliographie et lectures :

Bibliothèque ISIDORE : Jupyter

Enseignant : Stéphane Pouyllau, ingénieur de recherche au CNRS, directeur technique d’Huma-Num (très grande infrastructure de recherche pour les sciences humaines et sociales numériques)

Bibliographie (non exhaustive) :

Bermès, E., A. Isaac et G. Poupeau (2013) : Le Web sémantique en bibliothèque, Collection Bibliothèques, Paris.

Gandon, F., C. Faron-Zucker et O. Corby (2012) : Le Web sémantique: comment lier les données et les schémas sur le web ?, InfoPro. Management des systèmes d’information, ISSN 1773-5483, Paris, France.

Passant, A. (2009) : Technologies du Web Sémantique pour l’Entreprise 2.0, Mémoires, Thèses et HDR, ABES.

Poupeau, G. : Réaliser un mashup de données avec Dataiku DSS et Palladio | Les petites cases (http://www.lespetitescases.net/realiser-mashup-donnees-Dataiku-DSS-Palladio, consulté le 1 juillet 2018).

Pouyllau, S. (2012) : “Les moteurs de recherche profitent aussi de la sémantique”, Documentaliste – Sciences de l’Information, 48, 4, 36‑37.

Pouyllau, S. (2013) : “Web de données, big data, open data, quels rôles pour les documentalistes? (French)”, Documentaliste: Sciences de l’Information, 50, 3, 32‑33.

Pouyllau, S. (2014) : sp.Blog — Utiliser Isidore pour ses propres données (quand on est, par exemple, dans un labo) (http://blog.stephanepouyllau.org/646).

Exprimer simplement les métadonnées d’une page web avec RDFa

Comment exprimer des métadonnées d’une page web très simplement en utilisant la syntaxe RDFa ? Prenons exemple un billet de blog « propulsé » par WordPress. S’il existe des plugins pour cela, l’obsolescence de ces derniers peut rendre difficile leur maintien dans le temps. Autre solution, implémenter RDFa dans le code HTML du thème WordPress que l’on aura choisi. Pour ce que cela soit facile et « gérable » dans le temps, le plus simple et d’utiliser l’entête HTML <head> afin d’y placer des balises <meta> qui contiendront les métadonnées. Exprimer des métadonnées selon le modèle RDF via la syntaxe RDFa permet à des machines (principalement des moteurs de recherche) de mieux traiter l’information car elle devient plus explicite : pour une machine, une chaine de caractère peut être un titre ou un résumé, si vous ne lui dites pas que c’est un titre ou que c’est un résumé elle ne le devinera pas. A minima, il est donc possible d’utiliser les balises <meta> pour définir une structure RDF offrant la possibilité de structurer les métadonnées minimales par exemple avec le vocabulaire documentaire Dublin Core Element Set (plus connu en France sous appellation « Dublin Core simple »).

Comment faire ?

En premier, il faut indiquer dans le DOCTYPE de la page web, qu’elle va contenir des informations qui vont utiliser le modèle RDF, ainsi, le DOCTYPE sera :

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">

Dans la balise <html>, nous allons indiquer les adresses des vocabulaires documentaires – par l’intermédiaire de namespace XML – qui vont nous servir à typer les informations, dans notre exemple, nous allons utiliser le Dublin Core simple et le Dublin Core Terms (DC Terms) :

<html xmlns="http://www.w3.org/1999/xhtml" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" 
xmlns:xsd="http://www.w3.org/2001/XMLSchema#" 
xmlns:dc="http://purl.org/dc/elements/1.1/" 
xmlns:dcterms="http://purl.org/dc/terms/">

Il serait possible, pour encoder plus d’information, d’utiliser plus de vocabulaires documentaires :

<html xmlns="http://www.w3.org/1999/xhtml" 
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
xmlns:dc="http://purl.org/dc/elements/1.1/" 
xmlns:dcterms="http://purl.org/dc/terms/" 
xmlns:skos="http://www.w3.org/2004/02/skos/core#" 
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" 
xmlns:xsd="http://www.w3.org/2001/XMLSchema#" 
xmlns:foaf="http://xmlns.com/foaf/0.1/" 
xmlns:cc="http://creativecommons.org/ns#">

Ici, foaf nous servirait à encoder des informations relatives à une personne ou un objet décrit par les métadonnées, cc nous permettrait de signaler quelle licence creative commons s’appliquerait à ce contenu. Après avoir déclaré des les vocabulaires documentaires que nous allons utiliser, nous allons ajouter la structure RDFa au travers de balises <meta> dans l’entête <head> de la page HTML.

Dans un premier temps, à l’aide d’une balise <link>, nous allons définir l’objet numérique auquel les informations encodées en RDF seront rattachées :

<link rel="dc:identifier" href="http://monblog.com/monbillet.html" />

Cette balise définie donc un « conteneur » pour les informations que nous allons indiquer à l’aide des balises <meta>. Ce conteneur est identifié par une URI qui se trouve être là une URL, c’est à dire l’adresse de la page dans le web.

Maintenant, nous enchainons les balises <meta> qui définissent donc un ensemble de métadonnées, c’est à dire dans notre cas, des informations descriptives de la page web :

<meta property="dc:title" content="Le titre de mon billet" />
<meta property="dc:creator" content="Stéphane Pouyllau" />
<meta property="dcterms:created" content="2011-01-27" /> 
<meta property="dcterms:abstract" content="Un résumé descriptif du contenu de ma page" xml:lang="fr" /> 
<meta property="dc:subject" content="mot-clé 3" /> 
<meta property="dc:subject" content="mot-clé 2" /> 
<meta property="dc:type" content="billet" />
<meta property="dc:format" content="text/html" />
<meta property="dc:relation" content="Un lien vers une page web complémentaire" />

Il s’agit là d’un exemple minimal : un billet de blog utilisant le Dublin Core simple et peu descriptif sur le plan documentaire. Suivant la nature du contenu de la page web, il sera bien sur possible d’être plus précis, plus fin et plus complet dans les informations encodées. Le DC Terms permettra avec :

<meta property="dcterms:bibliographicCitation" content="Mettre ici une référence bibliographique" />

de proposer une forme pour une référence bibliographique dans le cas d’une page web décrivant un ouvrage par exemple. Il serait possible de passer l’ensemble du texte d’une page web à l’aide du vocabulaire SIOC en utilisant la propriété sioc:content. Il est possible également de relier des pages web entre elles (pour définir un corpus d’auteurs par exemple) en utilisant dans le vocabulaire DC Terms la propriété dcterms:isPartOf.

Il s’agit là d’un court billet présentant une façon très simple d’implémenter des métadonnées descriptives utilisant le formalisme RDF via une implémentation directe dans le code HTML, ce que l’on appelle le RDFa (« a » pour « in attributes« ). Cette implémentation, même minimale, permet d’être indexé par Isidore par exemple et d’indiquer des informations qui seront utilisées pour une meilleure indexation des données et qui pourront être ré-exposées dans la base de données RDF de ce dernier. La plateforme hypotheses.org (éditée par Open Edition) utilise cette implémentation d’RDFa. Pour cela, il faut simplement construire un sitemap (carte des liens du site web) au format xml pointant toutes les adresses URL des pages contenant du RDFa et que l’on souhaite voir indexer par Isidore.

Stéphane.

ChronoSIDORE : explorons les données d’ISIDORE avec SPARQL #2

ChronoSIDORE n’est pas le nom d’une nouvelle espèce de dinosaures, c’est le nom d’une application web qui utilise les ressources d’Isidore. ChronoSIDORE est donc un petit « mashup » que j’ai programmé pendant mes congés d’été. L’idée est double, poursuivre l’exploration concrète des possibilités d’un outil comme Isidore et donner des idées à d’autres personnes, en particulier dans le monde des bibliothèques et de la documentation, pour développer d’autres mashups s’appuyant soit sur l’API d’Isidore soit sur son SPARQL endpoint.

Que propose-t-il ?

ChronoSIDORE, accessible sur www.stephanepouyllau.org/labs/isidore/chronosidore, propose une autre façon de « voir » les ressources d’Isidore ; différente des vues traditionnelles en « pages de résultats » comme cela est le cas dans les bases de données bibliographiques ou catalogues. Ce mashup propose une vision des ressources en « tableau de bord » : il s’agit de projeter sur une frise chronologique un ensemble de ressources issues d’une ou de plusieurs requêtes SPARQL. Ainsi, une vision plus globale est proposée permettant une représentation différente de la répartition des ressources : dans notre cas, une mise en lumière de l’évolution disciplinaire des ressources fondée sur la catégorisation automatique effectuée par Isidore. ChronoSIDORE offre la possibilité de « voir » l’évolution chronologique des tendances disciplinaires pour un ensemble fini de ressources documentaires définit dans Isidore ou « source » : il peut s’agir des publications d’un laboratoire (à la condition qu’il possède une collection dans HALSHS), des articles d’une revue, des notices d’une base de données, des billets d’un carnet de recherche (voir la liste des sources dans l’annuaire d’Isidore). ChronoSIDORE propose deux types de requêtes SPARQL : l’une est orientée « sources » la seconde est orienté « auteurs » (permettant de projeter sur la frise les ressources d’un auteur). ChronoIsidore est un exemple de mashup possible, bien d’autres mashup sont possibles (autour des langues, des types de documents…).

Comment fonctionne-t-il ?

N’étant pas un développeur professionnel, j’ai fais avec mes connaissances en PHP, Xpath, SPARQL et Javascript pour développer. J’en profite pour remercier ici mes collègues Laurent Capelli, Shadia Kilouchi et Jean-Luc Minel qui m’ont aidé, en particulier sur SPARQL. Ainsi, je pense qu’une équipe de développeurs professionnels ferait beaucoup mieux, mais j’ai pensé aussi qu’il serait bien de montrer que l’ancien étudiant en histoire et archéologie du Moyen Age que je suis est capable d’exploiter avec un peu de PHP, les gisements de données enrichies proposés par Isidore, en espérant que cela donnera des idées à d’autres. J’en profite pour ré-affirmer ici le rôle et l’importance des ingénieurs en digital humanities dont les métiers sont multiples et qui interviennent à différents niveaux de technicité : Il faut des très grands spécialistes, érudits mais aussi des intermédiaires qui vont chercher la compétence à l’extérieur et l’adapte aux besoins SHS . On fait souvent le reproche aux ingénieurs du CNRS, surtout en digital humanities, de ré-inventer l’eau chaude, mais je pense qu’ils développent des outils, des méthodes qui sont adaptés à des publics présentant une multitude de rapports au numérique et différents niveaux d’appropriation et c’est très important. Il faut parfois avoir un outil imparfait, ou un démonstrateur fonctionnel pour offrir un service qui permettra à certains de profiter d’outils communs, fondés sur des standards ouverts et bien documentés et de « sauter le pas », ensuite on peut toujours améliorer les fonctionnalités. Je préfère cela à deux extrêmes : passer cinq ans à faire un outil qui ne fonctionnera jamais et qui sera dépassé avant de sortir (car nous n’avons que trop rarement les moyens de faire vite et bien) et dire qu’au prétexte que cela existe en ligne, il ne faut rien, s’en contenter, faire avec, et ne rien tenter car on n’égalera jamais les autres. Il s’agit parfois de faire juste « un pas de plus » pour ouvrir des données aux autres et savoir que ce « pas » est maitrisé, accompagné par des collègues du monde académique peut être plus sécurisant que de plonger de suite dans jungle des outils en lignes et des « consultants » (même si, comme je l’ai dit, cela peut être nécessaire). J’aime bien l’idée que ChronoSIDORE donnera peut-être des idées à d’autres, nous en reparlerons au THATCamp Paris 2012 en septembre.

ChonoSIDORE réalise en fait plusieurs tâches :

Il interroge le triple store RDF d’Isidore : il s’agit d’une base de données RDF qui contient l’ensemble des informations d’Isidore formalisées en RDF et proposées selon les principes du linked data.
Il utilise pour cela le langage normalisé et international SPARQL (W3C) qui permet d’interroger les triplets RDF.
Il assemble les informations reçues du triple store sous la forme d’un flux de réponse Xml lisible avec l’application timeline créé dans le cadre du projet Simile du MIT (plutôt que refaire un système propre, j’ai préféré utiliser cet outil, même si je le trouve quelque peu rigide, il existe aussi d’autres systèmes : par exemple Timeline JS mais quelque peu différent).

Quelques limites

Il s’agit d’une version bêta, en fait un démonstrateur, donc il présente des limites. Deux sont à signaler :

Isidore catégorise automatiquement via un corpus de référence (HALSHS) et à l’aide de signatures sémantiques : cela peut donc générer des erreurs de catégorisation. Pour aller plus loin, voir les principes de catégorisation dans Isidore avec la vidéo de présentation des systèmes d’Isidore par Fabrice Lacroix, président d’Antidot, lors de l’université d’hiver du TGE Adonis à Valpré en décembre 2010 (ouverture d’Isidore).

Isidore ne catégorise pas toute les ressources qu’il moissonne : cela dépend de la richesse sémantique des métadonnées : plus les métadonnées moissonnée seront riches (description, résumé, mots-clés) plus la catégorisation proposée par Isidore sera pertinente et donc utilisable dans ChronoSIDORE. Donc toutes les ressources ne « montent » pas dans la frise chronologie.

Je vous invite donc à utiliser ChronoSIDORE, à le tester, à le faire « craquer » et si vous le souhaitez vous pouvez laisser un commentaire, des idées, des critiques…

Stéphane.

Lectures pour un été pluvieux ?

Je signale le très bon billet sur l’interopérabilité de Marie-Anne Chabin dans son blog (merci d’ailleurs à Silvère Mercier pour le signalement). Je me suis permis un petit et court commentaire à ce billet car il fait écho en partie aux limites de l’interopérabilité quand elle devient plus une mode qu’un besoin réel. C’est particulièrement vrai dans le monde de l’interopérabilité des métadonnées documentaires ou le protocole OAI-PMH est largement utilisé (ce qui est bien) mais parfois mal maitrisé : Il est courant de tomber sur des entrepôts OAI-PMH qui tentent d’échanger des métadonnées qui, non-normalisées par exemple, ne trouveront pas d’utilisateurs « en face » pour les exploiter réellement.

En écho complémentaire, je signale la journée d’étude « De l’OAI au web de données : Bibliothèques et publications sur Internet » le 12 octobre 2012 qui se propose d’explorer le lien entre interopérabilité et utilisation du web comme lieu de publication même des informations structurées. Pour finir, je me permet de vous encourager de regarder et d’écouter de temps en temps l’intervention d’Emmanuelle Bermes sur le web de données qui éclaire toutes ces notions de façon magistrale.

Explorons les données d’ISIDORE avec SPARQL #1

Depuis quelques semaines, j’ai pris la direction d’une unité mixte de service qui anime la très grande infrastructure de recherche Corpus-IR. Après Adonis et tout en poursuivant un peu l’animation d’Isidore, je reviens avec plaisir dans les corpus de données en SHS. Cela dit, l’avenir d’un projet tel qu’Isidore est très directement lié aux corpus et bases de données qui pourraient être indexés et annotés par Isidore. Les consortiums de Corpus-IR sont déjà au travail et proposeront des corpus de données prochainement. J’espère qu’ils seront structurés avec du RDF et voir même, pour les corpus diffusés sur le web, avec du RDFa.

Ayant donc un peu moins de temps pour écrire dans ce blog, je profite tout de même de quelques minutes pour vous inviter à explorer les possibilités du SPARQL endpoint d’Isidore en lançant ici une petite série de billets. Pour ouvrir la série, une requête permettant de lister les métadonnées des photos et images de MédiHAL géolocalisées sur territoire (je prends ici quelques photos de Djibouti) appartenant au référentiel géographique utilisé dans Isidore, Geonames.org :

PREFIX dcterms: <http://purl.org/dc/terms/> 
PREFIX dces: <http://purl.org/dc/elements/1.1/> 
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

select ?id ?titre ?uri_pays 
?nom_auteur ?prenom_auteur ?coord_geo where { 
<http://www.rechercheisidore.fr/resource/10670/2.hlil75> ?p ?o. 
?o dcterms:identifier ?id. 
?o dcterms:title ?titre. 
?o dcterms:creator ?creator. 
?creator foaf:familyName ?nom_auteur. 
?creator foaf:givenName ?prenom_auteur. 
?o dcterms:coverage ?uri_pays. 
?o dces:coverage ?coord_geo 
FILTER (regex(?id, "10670") 
&& regex(?uri_pays, "223816") 
&& regex(?coord_geo, "[0-9]")) 
} LIMIT 500

En posant cette requête SPARQL dans l’interface d’interrogation SPARQL d’Isidore, il est possible de récupérer les métadonnées, en fait les informations contenues dans les métadonnées, sous la forme de triplets RDF. Ces triplets RDF, base du web de données, peuvent donc être redondant si l’information fait appel aux même étiquettes d’un même vocabulaire (cf ex. ci-dessous). Le résultat de la requête est présenté dans différents formats (RDF/XML ; HTML ; json…).

A partir de là, de nombreuses petites applications web sont possibles, elle sont souvent nommées « mashup » car elles marient, grâce au liant que permet l’utilisation d’URIs à base d’http, plusieurs informations présentes dans le web de données.

Variantes… avec les enrichissements proposés par Isidore et issus des différents traitements effectués :

PREFIX dcterms: <http://purl.org/dc/terms/> 
PREFIX dces: <http://purl.org/dc/elements/1.1/> 
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

select ?id ?titre ?uri_pays ?uri_enrichissements_ISIDORE 
?nom_auteur ?prenom_auteur ?coord_geo where { 
<http://www.rechercheisidore.fr/resource/10670/2.hlil75> ?p ?o. 
?o dcterms:identifier ?id. 
?o dcterms:title ?titre.
?o dcterms:subject ?uri_enrichissements_ISIDORE.
?o dcterms:creator ?creator. 
?creator foaf:familyName ?nom_auteur. 
?creator foaf:givenName ?prenom_auteur. 
?o dcterms:coverage ?uri_pays. 
?o dces:coverage ?coord_geo 
FILTER (regex(?id, "10670") 
&& regex(?uri_pays, "223816") 
&& regex(?coord_geo, "[0-9]")) 
} LIMIT 500

Ou encore avec les mots-clés d’origine et les enrichissements :

PREFIX dcterms: <http://purl.org/dc/terms/> 
PREFIX dces: <http://purl.org/dc/elements/1.1/> 
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

select ?id ?titre ?uri_pays ?mots_cles ?uri_enrichissements_ISIDORE 
?nom_auteur ?prenom_auteur ?coord_geo where { 
<http://www.rechercheisidore.fr/resource/10670/2.hlil75> ?p ?o. 
?o dcterms:identifier ?id. 
?o dcterms:title ?titre.
?o dces:subject ?mots_cles.
?o dcterms:subject ?uri_enrichissements_ISIDORE.
?o dcterms:creator ?creator. 
?creator foaf:familyName ?nom_auteur. 
?creator foaf:givenName ?prenom_auteur. 
?o dcterms:coverage ?uri_pays. 
?o dces:coverage ?coord_geo 
FILTER (regex(?id, "10670") 
&& regex(?uri_pays, "223816") 
&& regex(?coord_geo, "[0-9]")) 
} LIMIT 500

La « vue » des triplets RDF d’une ressource est bien sur directement possible :

SELECT ?graph ?predicat ?object WHERE { 
GRAPH ?graph { <http://www.rechercheisidore.fr/resource/10670/1.f2v6vz> ?predicat ?object. } 
}

Bon, je m’arrête là pour ce premier petit billet qui n’a pas d’autre vocation que de présenter des exemples de requêtes SPARQL sur des données SHS afin de mettre un peu l’eau à la bouche aux développeurs web du domaine qui pourraient ainsi avoir des idées de mashup pour leurs productions. La prochaine fois, je présenterai comment est formé de la requête.

Stéphane.

Thésaurus et web de données : l’exemple du Thésaurus W

Les archives de France proposent depuis quelques semaines selon les principes du web de données et du linked data le Thésaurus pour l’indexation des archives locales qui remplace l’édition 1997 du Thésaurus W et la version 2000 des listes d’autorité « actions », « typologie documentaire » et « contexte historique ». Un site web très clair a été réalisé pour l’occasion : il offre la possibilité de consulter le thésaurus bien sur, d’en télécharger une version RDF/XML mais surtout de l’interroger via le langage SPARQL qui est le langage de requête des données structurées en RDF. Ce point d’accès, on le nomme SPARQL end point (point d’accès SPARQL), est illustré de requêtes de démonstration permettant aux débutants en SPARQL d’être un peu autonome dans ce monde encore nouveau. Cette initiative est importante : elle ouvre des données publiques, elle permet de s’appuyer sur les référentiels des Archives de France pour qualifier des données tiers et donc construire des applications web riches. Dans le projet ISIDORE, nous avons d’ailleurs utilisé la liste d’autorités « contexte historique » afin d’accrocher les notices ISIDORE à des périodes historiques. Ce site est un très bel exemple de l’utilisation des méthodes du web de données pour les données publiques.

La correspondance d’André-Marie Ampère structurée avec RDFa

J’ai RDFaisé la correspondance d’André-Marie Ampère (1775-1836) éditée en ligne sur le site @.Ampère et l’histoire de l’électricité créé par Christine Blondel (Chercheuse au CNRS) et auquel j’ai participé en 2008/2009. Cette édition électronique, réalisée avec l’aide de Delphine Usal (CNRS) et Marie-Hélène Wronecki (contractuelle au CNRS) permet de mieux connaitre la vie de ce savant du XIXe siècle. Les éditeurs la présente ainsi :

La Correspondance d’Ampère regroupe les lettres qu’il a reçues et qu’il a envoyées. Elle offre un éclairage exceptionnel sur la vie personnelle, professionnelle et intellectuelle d’un des savants français majeurs du début du XIXe siècle. Plus de 1100 lettres sont actuellement accessibles en ligne.

Ce corpus de données, limité mais assez complexe, m’a semblé être intéressant pour réaliser un travail de structuration utilisant RDFa (voir le billet sur MédiHAL et le RDFa). J’espère que d’autres sites web diffusant des corpus historiques s’engageront dans l’implémentation/structuration de l’information selon les principes du RDF.

C’est un exemple, permettant via ISIDORE de montrer l’intérêt de l’utilisation du RDF dans les corpus en ligne (j’en profite pour signaler un tutoriel en anglais sur la question des structures RDFa dans wordpress et drupal qui me semble très bien fait et tout à fait intéressant). Mais d’autres projets sont en cours, par exemple : le Système d’information en philosophie des sciences (ou SIPS) qui sera donc, j’espère très bientôt, dans ISIDORE.

Bonne navigation structurée à tous !

Stéphane.

Les données numériques des SHS entrent dans le web de données

Avec l’ouverture d’isidore (réalisée par le très grand équipement Adonis du CNRS) les données numériques des sciences humaines et sociales entre dans le web de données et vont bientôt rejoindre le linking open data cloud diagram ou « Lod » maintenu par Richard Cyganiak (DERI, NUI Galway) and Anja Jentzsch (Freie Universität Berlin), en tous cas, je l’espère.

Isidore est une plateforme de recherche permettant la recherche d’information dans les données numériques des SHS, quelles soient sources pour faire de la recherche ou bien publications des résultats de la recherche. J’ai le plaisir de co-diriger ce projet avec Jean-Luc Minel dans le cadre de l’équipe du Adonis, le très grand équipement du Centre national de la recherche scientifique.

Je profite de ce petit billet « auto-promotionnel » pour remercier Gautier Poupeau (alias Got) sans qui ce projet n’aurait pas pu être conçu et réalisé ainsi que toute l’équipe du centre pour la communication scientifique directe (Laurent Capelli, Philippe Correia, Loic Comparet, Yannick Barborini et Daniel Charnay) qui participe à ce beau projet.

Isidore moissonne des métadonnées et des données selon les protocoles OAI-PMH, des signalements d’actualités via RSS et Atom, des données structurées selon RDFa et peut se connecter à des catalogues de bibliothèques SRU/SRW (z3950). Isidore enrichit ces données en les croisant, en les qualifiant avec des thésaurii, des référentiels, des listes d’auteurs et les ré-exposent selon les principes du linked data. Pour utiliser ces données, un site web a été créé : www.rechercheisidore.fr. Vous pouvez donc interroger les articles de Revues.org, Cairn, Persée, les ouvrages, textes, images de Gallica, HALSHS, MédiHAL avec un seul formulaire et avec des liens entre toutes ces données.

Dans isidore, les métadonnées sont transformées en RDF, ainsi les données des shs entrent dans le web de données.

Mais nous sommes en version béta, alors le travail continu.

Stéphane.

Construire le web de données pour les données de la recherche en SHS : comment utiliser RDFa ?

Le web est l’un des vecteurs principaux de la diffusion des données de recherche en sciences humaines et sociales. Il permet de diffuser et d’éditer presque tous les matériaux utilisés par le chercheur et l’enseignant : de l’archive ou la bibliothèque à la publication électronique en passant par le séminaire, le colloque, la revues et le livre. L’utilisation du web comme outil d’édition, de publication et de diffusion a permis de démultiplier les accès aux documents et à l’information. Mais depuis 20 ans, l’effort a plus porté sur la mise à disposition de documents numériques (ouvrages, articles, corpus) que sur la structuration de l’information contenue dans ces documents : il est vrai que l’essor des moteurs de recherche traditionnels depuis les années 90 (d’Altavista à Google) ont permis d’atteindre et de s’y « retrouver » dans ces milliards de documents qui sont sur le web aujourd’hui. En revanche, la publication électronique des contenus des bases de données – les données elles-même qui ont toujours leurs propres structurations, pose encore des questions et des difficultés qui font que le web, s’il est plein de documents et relativement vide de données et d’informations structurées. Ainsi, les outils d’exploitation des documents que nous utilisons aujourd’hui, tel les moteurs de recherche, fonctionnent sur des réservoirs de documents encore trop cloisonnés. Ainsi, construire une page web d’information sur l’historien Georges Duby nécessite toujours d’adresser plusieurs questions (requêtes) à plusieurs moteurs de recherche (généralistes et spécialisés) ou à plusieurs formulaires de bases de données et cela même si, depuis dix ans, les techniques de l’interopérabilité ont fait de très grand progrès. Ce web « cloisonné » ne permet pas aux machines de travailler et certaines parties du web deviennent invisibles aux moteurs de recherche et même parfois aux humains (qui s’est déjà retrouver devant un formulaire de bdd en ligne un peu froid ?). Bien sur, un homme peut le faire, à la main, mais s’il veut se faire aider de machine, pour gagner du temps ou mieux, traiter plus de données, cela devient assez complexe. Surtout pour un chercheur qui ne maitrise pas forcement le SQL et dont ce n’est pas le métier. Ainsi, les données numériques sont bien rangées dans de multiples bases de données ou silot, mais nous n’avons construit que de simples petits « judas » afin de les regarder et l’éditorialisation des données ne fait pas tout, pis, elle cache parfois, sous une couche « cosmétique » (cela dit souvent nécessaire), une faible structuration des données. La faible structuration des données freine très souvent les modes de pérennisation de ces dernières donc la possibilité de leur ré-exploitation future. Il nous faut faire mieux.

Comment dépasser cela ?

Comment rendre plus accessible encore, non pas simplement les documents (au sens des fichiers) mais les informations contenues dans ces derniers sans appauvrir les formats de structuration de l’information. Comment se donner l’opportunité de construire des outils d’aide à la recherche permettant de construire – par exemple – la notice encyclopédique de George Duby, en présentant, non pas simplement la compilation du signalement de ses articles, ouvrages, conférences, mais aussi les thèmes qu’il a abordé au cours de sa carrière et en les reliant à des notions, des définitions, des illustrations, des ouvrages d’autres auteurs ? C’est tout l’enjeu de la construction du web de données, cette extension du web dont je parlais dans mon dernier billet. Il nous faut tout d’abord libérer les données après l’avoir fait avec les bases de données elles-même.

Comment faire ?

Tout d’abord un peu d’histoire. Dans les années 1995-2000, tous les acteurs de la recherche et de la culture ont massivement édité leurs bases de données sur le web, c’était l’enjeu du moment : tout le monde voulait mettre sa base en ligne, c’était un nouveau cycle dans la diffusion des documents (après le minitel, les connexions client/serveurs). Nous sommes entrés, depuis quelques années, dans un nouveau cycle dont la première phase (la première « marche » je préfère dire) a été l’interopérabilité des bases de données. En parallèle de cette phase, qui se poursuit, nous devons « ouvrir les données ». Quel curieuse expression ! Simplement, il s’agit d’exposer les données, dans toutes leurs complexités, en utilisant le cadre de la modélisation en RDF. Pour cela, il nous faut apprendre et développer des modèles de données, faire des choix de vocabulaires documentaires afin de décrire l’information contenue dans une page web, un billet de blog, un article, un inventaire de fonds d’archive, un corpus, un thésaurus ou encore une notice de bibliothèque. Pour ouvrir ces données il faut être capable de dire : « tiens ça, c’est le titre et ça là, c’est l’auteur et je te prouve que c’est bien l’auteur car je suis capable de le relier, par un principe ouvert, normalisé et connu de tous, à un référentiel (les auteurs du sudoc par exemple) et à une forme de vocabulaire (du mods, du dublin core simple, etc.) » : les documentalistes savent très bien faire cela. Ainsi, ouvrir ses données – participer à la construction du web de données – cela revient donc à structurer de l’information avec des règles communes, valables pour tout le monde du web et où donc l’implicite n’est pas le bienvenu. Ouvrir ses données au monde c’est donc vouloir diffuser les données et par uniquement les documents et surtout dire quel choix j’ai fais pour structurer l’information. Les documentalistes font (devraient) s’y régaler.

Avec l’aide de Got, je vais présenter un exemple simple. Il est possible d’exprimer selon RDF des données structurées dans une page web écrite en HTML : il s’agit de la syntaxe RDFa (pour Resource Description Framework – in – attributes). RDFa permet donc d’utiliser la mécanique du RDF tout en utilisant comme support les balises HTML.

Je prends comme exemple, très simple, une photographie et sa notice venant de MédiHAL, l’archive ouverte de photographies scientifiques que j’ai co-créé et qui est développée par le CCSD et le CN2SV. Au travers de cet exemple, je souhaite montrer qu’il ne s’agit pas que de techniques documentaires, ou que de questions informatiques, ou encore que de questions d’édition : non, il s’agit de tous cela en même temps. Ainsi, construire le web de données c’est avant tout réunir plusieurs compétences et métiers pour envisager toutes les aspects.

La consultation avec un simple navigateur web de la notice exemple ne révèle pas la présence d’une structuration de l’information selon les principes RDF et pourtant, si l’on regarde le code source, il y a une structuration, des vocabulaires RDF et des étiquettes structurant l’information. Ainsi, dans un premier temps, il faut dire que cette page contiendra du RDFa : j’ai modifié le doctype XHTML. Il est remplaçé par un doctype XHTML+RDFa :

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">

Notez ensuite la présence de plusieurs vocabulaires documentaires qui vont nous permettre de structurer l’information :

<html xml:lang="fr" version="XHTML+RDFa 1.0" xmlns="http://www.w3.org/1999/xhtml" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:cc="http://creativecommons.org/ns#" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#" xmlns:xsd="http://www.w3.org/2001/XMLSchema#">

Pourquoi ? Puisque nous allons structurer les données contenues dans cette page web, il nous faut dire « ça, c’est le titre » : il s’agit de mettre une « étiquette » à une chaine de caractère du titre. Il nous faut construire des triplets RDF qui, par l’utilisation de prédicats (verbe), relient l’étiquette (l’objet) à la chaine de caractère du titre (sujet). Puisque nous devons dire à quel vocabulaire nous faisons référence pour dire « c’est le titre », nous les déclarons en entête. Vous reconnaitrez sans doute « dc » pour le dublin core simple (dublin core elements set ou dces), « dcterms » pour le dublin core terms, « cc » pour signaler la présence de données sous licence creative commons, « geo » pour la géolocalisation GPS, « foaf » pour décrire le document qui est ici une notice MédiHAL, etc. Ainsi je déclare là l’ensemble des vocabulaires documentaires que je vais utiliser ensuite et j’en donne la référence en ligne : http://purl.org/dc/elements/1.1/ pour le dublin core simple. Ces référentiels sont eux-même décrits et structurés en RDF : ils sont utilisés par tous et sont donc le point de référence, la norme.

Je trouve ensuite le début de ma notice, qui est matérialisée par une balise <div> :

<div typeof="foaf:Image" about="http://medihal.archives-ouvertes.fr/medihal-00501617">

Dans cette balise (fermante à la fin de ma notice), j’y mentionne que ce qui sera dans la balise <div> est une notice d’une image et que l’URL présente dans l’attribut « about » sera l’objet auquel se rapporte les informations que je vais structurer (donc ici, un conteneur, une notice, d’une image). Les informations décrites par la suite se rapportent à cette notice (rôle du « about »), ce conteneur, accessible à cette URL. Ma données est complexe, elle est composés d’une image (qui a plusieurs représentations : plusieurs vignettes, l’image déposée, etc.) et des métadonnées, voir des commentaires (publics, privés). Pour décrire ce conteneur, j’utilise le vocabulaire foaf qui permet de décrire des ressources, des personnes ou des institutions et je vais utiliser l’élément foaf:Image. Pour la syntaxe, je vous invite à lire ce billet de Got qui présente très en détail et très clairement la syntaxe des CURIEs (ou Compact URIs) dans le monde RDF.

Dans ce <div>, je vais pouvoir structurer l’information contenue dans la données en utilisant, dans cet exemple, la balise ainsi que quelques attributs : « property » pour caractériser l’information avec un vocabulaire, « rel » pour relier de l’information directement au conteneur. Ainsi pour le titre de l’image, je vais utiliser le dublin core simple (dces), nous aurons :

Madagascar : Vallée de l'Onive aux environs de Tsinjoarivo

Pour l’image en jpg présentée dans la notice (qui est l’une des représentations possibles de l’image) :

 <img title="Madagascar..." id="thumb320" src="http://medihal.archives-ouvertes.fr/docs/00/50/16/17/archives/thumb320.jpg" border="0" />

Là, nous caractérisons que le contenu de <img/>, c’est à dire une image en 320 pixels, est l’une des versions de l’image de la notice représentée par « http://medihal.archives-ouvertes.fr/medihal-00501617 » : il s’agit d’une vignette de l’image d’ou « foaf:thumbnail ». Dans ce cas, il possible d’implémenter les attributs rel et about dans la balise <img>. Je l’ai mis dans un pour plus de clarté. Notez que j’ai répéré dans ce l’attribut « about », je n’y suis pas obligé, il est déjà signalé dans la balise « mère ». Ce structurant une version de l’image (une vignette de 320px de coté), j’ai préféré ré-indiquer ce « about » afin que vous compreniez bien que foaf:thumbnail (vignette) désigne une vignette de l’image déposée et dont l’URI est http://medihal.archives-ouvertes.fr/medihal-00501617.

Pour la légende, je vais utiliser le vocabulaire dublin core terms, le plus riche des dublin core avec l’étiquette dc:abstract (pour résumé) :

Paysage rural de collines à proximité de Tsinjoarivo ; Au premier plan le bord de la terrasse de la vallée de l'Onive ; A l'arrière-plan, cultures en terrasse avec des rizières en escaliers, irriguées par un affluent du fleuve

Je pourrais aussi, plus simplement mais en introduisant un peu d’implicite, utiliser dces avec l’étiquette dc:description :

Paysage rural de collines à proximité de Tsinjoarivo ; Au premier plan le bord de la terrasse de la vallée de l'Onive ; A l'arrière-plan, cultures en terrasse avec des rizières en escaliers, irriguées par un affluent du fleuve

Pour exprimer les mots clés, je vais utiliser une nouvelle fois le dces :

<a href="[lien vers mes mots-clés]">Madagascar</a>

Il est possibilité là aussi d’être plus riche, en reliant mon mot-clés à un référentiel (thésaurus par exemple) en utilisant les vocabulaires sioc et skos pour exprimer des concepts et les liaisons :

 

<a href="[lien vers mes mots-clés]">Madagascar</a>




Pour la géolocalisation de mon image, je vais utiliser le dublin core terms avec l’étiquette « spacial », qui va me permettre de relier mon conteneur (foaf:Image) à des valeurs de latitude et de longitude. Ainsi, j’exprime dans dcterms:spatial une latitude et une longitude issues d’un GPS ou d’une géolocalisation en spécifiant que je fais référence au vocabulaire WGS validé par le W3C (geo:lat et geo:long).

 

Je me limite ici à quelques éléments de cette image (en prenant du DC simple pour être pédagogique), il est possible d’aller plus loin dans la structuration (en utilisant du DC terms ou d’autres vocalulaires).

Conclusion

Le web de données est une méthode qui consiste à utiliser le web comme un espace ou les données sont structurées : c’est à dire que l’information d’un document (pdf, jpg, txt, etc.) est cartographiée, repérée, signalée et reliée à des vocabulaires, accessibles eux-même sur le web et dont la structuration est connue et explicitée. C’est un formidable enjeux pour les documentalistes, les bibliothèques et les ingénieurs et techniciens en digital humanities qui construisent des corpus scientifiques et les diffusent en ligne. Le RDFa est l’une des techniques, l’une des mécaniques possible et elle est relativement simple à comprendre car elle s’inscrit dans une évolution naturelle des choses : une sémantisation de la page web via le code HTML. Il s’agit d’une révolution mais qui s’appuie sur des éléments que tout les professionnels de l’IST peuvent maitriser. J’ai toujours pensé et dit que l’OAI-PMH était (est) la première marche vers le web de données, je pense qu’RDFa est la deuxième, du moins c’est un pont très simple pour mieux comprendre RDF et les techniques du web de données.

Stéphane.

Liens utiles pour aller plus loin :

Exemple utilisé : http://www.stephanepouyllau.org/webdedonnees/medihal/rdfa/
Code source : http://www.stephanepouyllau.org/webdedonnees/medihal/rdfa/medihal-rdfa.txt
Une vue sur le contenu RDFa de cet exemple.
Comprendre RDF : http://www.lespetitescases.net/comprendre-rdf-en-moins-de-5-minutes
Mettre du RDFa dans son blog : http://www.lespetitescases.net/rdfaiser-votre-blog-1-la-theorie ; http://www.lespetitescases.net/rdfaiser-votre-blog-2-la-pratique ; http://www.lespetitescases.net/rdfaiser-votre-blog-3-exploitation
Vidéo de l’ADBS : Le Web de données : perspectives pour les métiers de l’information documentation

Construire le web de données pour les shs avec les digital humanities

Le web de données est une évolution du web actuel vers un web contenant des données structurées et si possible liées entre elles grâce à l’utilisation de standards documentaires et informatiques internationaux. Les informations contenues dans ces données sont également organisées, structurées, par l’utilisation de schémas (de structuration) dont le plus simple reste le dublin core element set (dit « dublin core simple »). Mais le web de données permet justement de s’affranchir de la contrainte de l’utilisation universelle du DC et de marier plusieurs schémas. Ainsi, dans un futur proche, c’est le web lui-même qui deviendra (en fait, qui devient) une base de données mondiale, structurée et pérenne.

Quel est la différence entre « diffuser sa base de données sur le web » et participer ou construire le web de données ?

Tout d’abord participer à la construction du web de données veut dire que l’on diffuse des données et pas uniquement les métadonnées ou les notices. Cela veut dire que l’on « ouvre » les données au public. L’ensemble des données utilisées par les enseignants et les chercheurs sont concernées quelles soient conservées dans les archives ou bien qu’il s’agisse des données produites par les chercheurs eux-même (enquêtes, articles, ouvrages, photographies, plans, cartes, notes de terrains, …). Il y a bien évidement des questions de confidentialité de l’information mais il est classique aujourd’hui d’appliquer des barrières mobiles aménageant des périodes d’embargo temporels et/ou disciplinaires. Construire le web de données c’est affirmer que l’on va, tout de suite ou dans quelques temps, ouvrir ses données. S’il existe une période d’embargo, il faut dire quand elle se terminera. Par exemple dans MédiHAL, l’archive ouverte de photographies et d’images scientifiques lancée par le CNRS, il est possible de placer une image sous un embargo de 3 ans, ainsi l’image jpg ou tif sera accessible dans 3 ans, en attendant la notice est publique. Dans l’interface et dans les flux OAI-PMH de MédiHAL est indiqué la disponibilité de la données.

Ouvrir ses données, pourquoi faire ?

Principalement, pour avoir accès à une assiette de données plus large permettant de traiter plus d’information afin de valider plus profondément telles ou telles théories ou idées tout en étant capable d’étayer le propos de synthèse en donnant accès à toutes les sources (ou preuves). Depuis 1999, avec l’arrivée des méthodes et protocoles d’interopérabilité des données tel que l’OAI-PMH, une première marche vers le web de données a été franchie : des moteurs de recherche collectent des métadonnées dont la citabilité et l’accès sont pérennes (c’est à dire que les diffuseurs – institutions ou personnes – se donnent les moyens de maintenir et de garantir l’accès) donnant ainsi accès a des données en ligne (textes, images, inventaires de fonds d’archives, articles, ouvrages, etc.). La seconde marche est encore devant nous, nous devons apprendre à structurer systématiquement toutes les données qui sont utiles aux chercheurs pour travailler : ainsi nous devons les qualifier. Les chercheurs, aidés par les bibliothécaires et documentalistes qui sont en première ligne, doivent aider, par exemple, au développement de nouveau outils d’enrichissement des données.

Ouvrir ses données c’est aussi vouloir partager et échanger avec d’autres chercheurs, mais aussi avec la communauté des digital humanties. C’est d’autant plus important que certaines données, utilisées voir collectées par les chercheurs, sont publiques. Bien sur, la recherche est un monde de compétition où les données sont stratégiques, mais je me positionne ici dans le cas de données des SHS, peut-être moins stratégiques, surtout quand elles sont patrimoniales et dans le cadre de données ayant déjà été traitées, au moins partiellement. Pourquoi un doctorant ayant soutenu sa thèse, ne diffuserait-il pas, juste après sa thèse (et après l’avoir déposée elle aussi dans une archive ouverte tel que TEL par exemple) son corpus de sources ? Voir les données qu’il n’a pas eu le temps d’exploiter ?

Heureusement le mouvement est en marche : plusieurs projets, s’inscrivant dans le web de données, sont en cours de réalisation, quelques exemples issus de la communauté des digital humanities :

La structuration des billets des blogs de la plateforme hypotheses.org en RDFa

La réalisation de plateforme ISIDORE du TGE ADONIS

L’expression en RDF des autorités auteurs du catalogue SUDOC de l’ABES

Le développement des projets d’édition électronique de sources historiques utilisant la TEI, qui permet de structurer les textes.

La construction du web de données permettra-t-il de développer de nouveau axe de recherche ? sans doute, mais il apporte également une nouvelle façon de relier les chercheurs en eux de (re)-construire de nouvelles communautés.

Dans un prochain billet et pour illustrer cette notion du web de données par un cas concret, j’aborderai la structuration en RDFa des pages de consultation de la plateforme MédiHAL.