Explorons les données d’ISIDORE avec SPARQL #1

Depuis quelques semaines, j’ai pris la direction d’une unité mixte de service qui anime la très grande infrastructure de recherche Corpus-IR. Après Adonis et tout en poursuivant un peu l’animation d’Isidore, je reviens avec plaisir dans les corpus de données en SHS. Cela dit, l’avenir d’un projet tel qu’Isidore est très directement lié aux corpus et bases de données qui pourraient être indexés et annotés par Isidore. Les consortiums de Corpus-IR sont déjà au travail et proposeront des corpus de données prochainement. J’espère qu’ils seront structurés avec du RDF et voir même, pour les corpus diffusés sur le web, avec du RDFa.

Ayant donc un peu moins de temps pour écrire dans ce blog, je profite tout de même de quelques minutes pour vous inviter à explorer les possibilités du SPARQL endpoint d’Isidore en lançant ici une petite série de billets. Pour ouvrir la série, une requête permettant de lister les métadonnées des photos et images de MédiHAL géolocalisées sur territoire (je prends ici quelques photos de Djibouti) appartenant au référentiel géographique utilisé dans Isidore, Geonames.org :

PREFIX dcterms: <http://purl.org/dc/terms/> 
PREFIX dces: <http://purl.org/dc/elements/1.1/> 
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

select ?id ?titre ?uri_pays 
?nom_auteur ?prenom_auteur ?coord_geo where { 
<http://www.rechercheisidore.fr/resource/10670/2.hlil75> ?p ?o. 
?o dcterms:identifier ?id. 
?o dcterms:title ?titre. 
?o dcterms:creator ?creator. 
?creator foaf:familyName ?nom_auteur. 
?creator foaf:givenName ?prenom_auteur. 
?o dcterms:coverage ?uri_pays. 
?o dces:coverage ?coord_geo 
FILTER (regex(?id, "10670") 
&& regex(?uri_pays, "223816") 
&& regex(?coord_geo, "[0-9]")) 
} LIMIT 500

En posant cette requête SPARQL dans l’interface d’interrogation SPARQL d’Isidore, il est possible de récupérer les métadonnées, en fait les informations contenues dans les métadonnées, sous la forme de triplets RDF. Ces triplets RDF, base du web de données, peuvent donc être redondant si l’information fait appel aux même étiquettes d’un même vocabulaire (cf ex. ci-dessous). Le résultat de la requête est présenté dans différents formats (RDF/XML ; HTML ; json…).

A partir de là, de nombreuses petites applications web sont possibles, elle sont souvent nommées « mashup » car elles marient, grâce au liant que permet l’utilisation d’URIs à base d’http, plusieurs informations présentes dans le web de données.

Variantes… avec les enrichissements proposés par Isidore et issus des différents traitements effectués :

PREFIX dcterms: <http://purl.org/dc/terms/> 
PREFIX dces: <http://purl.org/dc/elements/1.1/> 
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

select ?id ?titre ?uri_pays ?uri_enrichissements_ISIDORE 
?nom_auteur ?prenom_auteur ?coord_geo where { 
<http://www.rechercheisidore.fr/resource/10670/2.hlil75> ?p ?o. 
?o dcterms:identifier ?id. 
?o dcterms:title ?titre.
?o dcterms:subject ?uri_enrichissements_ISIDORE.
?o dcterms:creator ?creator. 
?creator foaf:familyName ?nom_auteur. 
?creator foaf:givenName ?prenom_auteur. 
?o dcterms:coverage ?uri_pays. 
?o dces:coverage ?coord_geo 
FILTER (regex(?id, "10670") 
&& regex(?uri_pays, "223816") 
&& regex(?coord_geo, "[0-9]")) 
} LIMIT 500

Ou encore avec les mots-clés d’origine et les enrichissements :

PREFIX dcterms: <http://purl.org/dc/terms/> 
PREFIX dces: <http://purl.org/dc/elements/1.1/> 
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

select ?id ?titre ?uri_pays ?mots_cles ?uri_enrichissements_ISIDORE 
?nom_auteur ?prenom_auteur ?coord_geo where { 
<http://www.rechercheisidore.fr/resource/10670/2.hlil75> ?p ?o. 
?o dcterms:identifier ?id. 
?o dcterms:title ?titre.
?o dces:subject ?mots_cles.
?o dcterms:subject ?uri_enrichissements_ISIDORE.
?o dcterms:creator ?creator. 
?creator foaf:familyName ?nom_auteur. 
?creator foaf:givenName ?prenom_auteur. 
?o dcterms:coverage ?uri_pays. 
?o dces:coverage ?coord_geo 
FILTER (regex(?id, "10670") 
&& regex(?uri_pays, "223816") 
&& regex(?coord_geo, "[0-9]")) 
} LIMIT 500

La « vue » des triplets RDF d’une ressource est bien sur directement possible :

SELECT ?graph ?predicat ?object WHERE { 
GRAPH ?graph { <http://www.rechercheisidore.fr/resource/10670/1.f2v6vz> ?predicat ?object. } 
}

Bon, je m’arrête là pour ce premier petit billet qui n’a pas d’autre vocation que de présenter des exemples de requêtes SPARQL sur des données SHS afin de mettre un peu l’eau à la bouche aux développeurs web du domaine qui pourraient ainsi avoir des idées de mashup pour leurs productions. La prochaine fois, je présenterai comment est formé de la requête.

Stéphane.

Sciences humaines et sociales numériques

Bonjour,
Très prochainement, deux évènements vont avoir lieu dans le monde des sciences humaines et sociales numériques (cette expression fait encore débat pour la version française du terme digital humanities) : le THATCamp Paris 2010 (Paris, 18/19 mai 2010) et la formation sur la gestion numérique des sources de la recherche en sciences humaines et sociales (Aussois, 11/15 octobre 2010) et dont le wiki va être ouvert dans quelques jours sur le site www.digitalhumanities.fr. Ces évènements sont importants. Ils montrent le mouvement actuel d’organisation des shs numériques. Les acteurs du domaine, institutionnels mais aussi informels structurent ce vaste « eldorado ». Depuis deux, trois ans, les actions de formation mais aussi de nombreux ateliers et séminaires se sont multipliés partout en France et les acteurs du domaine, chercheurs, informaticiens, documentalistes et bibliothécaires travaillent de plus en plus en coopération. Des utilisateurs vont à la rencontre de plateformes, services et des communautés de veilleurs naissent et diffusent via de « nouveaux » canaux. Récemment, une collègue de la bibliothèque universitaire de Lyon 1 a présenté sa démarche et son parcours pour la création d’une photothèque utilisant comme réservoir de données MédiHAL. Même si MédiHAL évolue petit à petit, suite aux critiques, conseils, retours des utilisateurs, je suis très heureux de voir que cette application est aussi utilisée en tant que simple conteneur de données. Le projet de la BU de Lyon 1 n’utilise les possibilités de l’OAI-PMH (avec moissonnage du dc:terms par exemple), il utilise cependant MédiHAL comme un simple conteneur (archivé à long terme très bientôt) ainsi il me tarde de voir les premières applications documentaires ou sites web qui viendront moissonner tel ou tel « sets » (collections) OAI-PMH de MédiHAL. Les sciences humaines et sociales numériques comme dirait Lou Burnard sont en pleine évolution : les applications sont en plein « mashup-age », l’archivage à long terme devient une réalité pour les données des SHS et bientôt, sans doute, les résultats de la recherche seront connectés aux matériaux sources de la recherche.

Stéphane.

Tout ce qu’il reste à faire…

Le développement de l’archive ouverte MédiHAL fut court, 3 mois en tout et avec une toute petite équipe (3 personnes). Même si nous avons largement utilisé le framework HAL, il reste plein de choses à faire, à améliorer, à reprendre, à redessiner et à écouter les chercheurs, documentalistes et bibliothécaires qui déjà par dizaines nous ont écrit pour nous encourager, nous demander conseil avant de se lancer. Ils nous ont aussi dit que MédiHAL est une bonne chose à l’heure des départs massifs en retraite dans le monde de la recherche. Certains nous ont demandé des choses précises, d’autre nous ont signalé des bugs, etc.
Je suis très heureux de voir que des développeurs nous ont demandé l’accès à l’api de HAL pour développer des widgets de chargement de masse et de visualisation. Au cours des prochains mois, MédiHAL trouvera petit à petit son rythme et je tiens à remercier toutes les personnes qui nous ont contactées. Elles ont exprimé leurs critiques, positives ou négatives, et leurs doutes et/ou un soutien. Certains déposeront dans quelques semaines ou quelques mois, ils sont les bienvenues.

Bon dimanche.

Stéphane.

MédiHAL : une photo pour une archive ouverte de photographies scientifiques

Mari, Tell Hariri Couple assis et buste d'un personnage barbu Syrie, Syria n° d'inventaire : 01105, Ifpo Institut Français Du Proche-Orient

Après quelques mois de travail avec l’équipe du Centre pour la communication scientifique directe (CCSD, www.ccsd.cnrs.fr) du CNRS, j’ai le plaisir de vous annoncer la création de MédiHAL : une archive ouverte de photographies et d’images scientifiques.

En juin 2006, dans les début du CN2SV, Fabrice Melka (du Cemaf-CNRS) et moi-même avions rédigé un projet qui jetait les bases de ce projet. A l’époque nous avions appelé cela « AOPS » : pour Archive Ouverte de Photographies Scientifiques. A l’époque nous pensions développer cela entre nous au CN2SV, comme nous l’avons fait notre autre plateforme AOMS, mais très rapidement nous avons compris qu’il nous fallait une équipe pour nous aider à réaliser ce projet qui nous tenait à cœur.

MédiHAL utilise le logiciel HAL qui est utilisé en France pour l’archive ouverte HAL. dont nous avons retravaillé le modèle de métadonnées. MédiHAL permet de cataloguer, géo-référencer et indexer les images et c’est Shadia Kilouchi, documentaliste contractuelle au CNRS, travaillant au CN2SV, qui a réalisé ce travail de modélisation et de réflexion documentaire en relation avec un grand nombre de collègues du CNRS et des universités. Je suis très heureux de voir que ce projet a mobilisé pour son élaboration des documentalistes, des développeurs, des chercheurs, qui ont travaillé ensemble autour de cette idée. Je remercie tous ceux qui nous ont aidé et qui supportent MédiHAL.

Dans un premier temps, MédiHAL est un réservoir de données pour les chercheurs et les enseignants qui souhaite archiver leurs images et permettre leur diffusion. Nous avons plus travailler sur le premier point, qui nous simple être un peu l’urgence aujourd’hui. Mais nous souhaitons petit à petit, selon les demandes, améliorer les outils et services pour la diffusion des images dépôts. A terme, j’espère que cette archive ouverte sera utilisée pour diffuser des corpus de chercheurs et de laboratoires. Nous encourageons les chercheurs qui ont souvent fait pendant plusieurs décennies des photos, pour leurs travaux de recherche, a les déposer dans MédiHAL  afin de les sécuriser (trop de disques durs et d’ordinateurs s’arrêtent sans prévenir, non ?) et de les diffuser (dans le respect des droits d’auteurs et des personnes).

Pour finir, la petite histoire de l’illustration du site MédiHAL. J’ai utilisé une photo que j’ai faite en juillet 2008, dans le centre de documentation/photothèque REGARDS (Pessac), Université de Bordeaux – CNRS. Il s’agit d’un meuble permettant de ranger un fichier de notices décrivant des photographies de géographie. Ce fichier est celui de la photothèque du CEGET, ancien laboratoire de recherche du CNRS. Il s’agit d’un « MédiHAL local » de l’époque…

banque d'images du CEGET - CNRS

Le recensement canadien de 1881 en ligne

Bonjour,

La bibliothèque et les archives du Canada (BAC) ont ouvert le 6 août 2008 un site permettant l’accès aux données du recensement canadien de 1881. Les données du recensement, qui offrent une véritable photographie de la vie au Canada en 1881, sont à la fois disponibles au travers d’une base de données textuelle (avec un formulaire de recherche très complet, voir complexe, mais très intéressant pour les généalogistes) et sous la forme d’images JPEG (de bonne qualité) ou de fichiers PDF présentant les données originales (visiblement numérisées depuis un micro-film).

L’interface est très simple, très clair et très bien documenté ce qui facilite les recherches. Il est dommage d’un système de panier, permettant de conserver ces recherches pour le temps d’une session, ne soit pas proposé. Cependant, cet outil – en français et en anglais – est une très belle réalisation et il enchantera les chercheurs et les généalogistes. L’utilisation des images semble libre – pour une utilisation recherche ? – puisqu’il est proposé :
« Vous pouvez imprimer les images ou les sauvegarder sur votre ordinateur. Utilisez le lien suivant pour accéder à d’autres options, telles qu’emprunter des microfilms. »

Sans tomber dans la surenchère technologique, ce site illustre, avec tous ceux déjà réalisés par ces deux institutions, l’importance future de ces réservoirs de données pour les digitals humanities dans le monde.

Stéphane