sp.Blog

le blog de Stéphane Pouyllau

Auteur : Stéphane POUYLLAU (Page 2 sur 15)

Lectures pour un été pluvieux ?

Je signale le très bon billet sur l’interopérabilité de Marie-Anne Chabin dans son blog (merci d’ailleurs à Silvère Mercier pour le signalement). Je me suis permis un petit et court commentaire à ce billet car il fait écho en partie aux limites de l’interopérabilité quand elle devient plus une mode qu’un besoin réel. C’est particulièrement vrai dans le monde de l’interopérabilité des métadonnées documentaires ou le protocole OAI-PMH est largement utilisé (ce qui est bien) mais parfois mal maitrisé : Il est courant de tomber sur des entrepôts OAI-PMH qui tentent d’échanger des métadonnées qui, non-normalisées par exemple, ne trouveront pas d’utilisateurs « en face » pour les exploiter réellement.

En écho complémentaire, je signale la journée d’étude « De l’OAI au web de données : Bibliothèques et publications sur Internet » le 12 octobre 2012 qui se propose d’explorer le lien entre interopérabilité et utilisation du web comme lieu de publication même des informations structurées. Pour finir, je me permet de vous encourager de regarder et d’écouter de temps en temps l’intervention d’Emmanuelle Bermes sur le web de données qui éclaire toutes ces notions de façon magistrale.

Explorons les données d’ISIDORE avec SPARQL #1

Depuis quelques semaines, j’ai pris la direction d’une unité mixte de service qui anime la très grande infrastructure de recherche Corpus-IR. Après Adonis et tout en poursuivant un peu l’animation d’Isidore, je reviens avec plaisir dans les corpus de données en SHS. Cela dit, l’avenir d’un projet tel qu’Isidore est très directement lié aux corpus et bases de données qui pourraient être indexés et annotés par Isidore. Les consortiums de Corpus-IR sont déjà au travail et proposeront des corpus de données prochainement. J’espère qu’ils seront structurés avec du RDF et voir même, pour les corpus diffusés sur le web, avec du RDFa.

Ayant donc un peu moins de temps pour écrire dans ce blog, je profite tout de même de quelques minutes pour vous inviter à explorer les possibilités du SPARQL endpoint d’Isidore en lançant ici une petite série de billets. Pour ouvrir la série, une requête permettant de lister les métadonnées des photos et images de MédiHAL géolocalisées sur territoire (je prends ici quelques photos de Djibouti) appartenant au référentiel géographique utilisé dans Isidore, Geonames.org :

PREFIX dcterms: <http://purl.org/dc/terms/> 
PREFIX dces: <http://purl.org/dc/elements/1.1/> 
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

select ?id ?titre ?uri_pays 
?nom_auteur ?prenom_auteur ?coord_geo where { 
<http://www.rechercheisidore.fr/resource/10670/2.hlil75> ?p ?o. 
?o dcterms:identifier ?id. 
?o dcterms:title ?titre. 
?o dcterms:creator ?creator. 
?creator foaf:familyName ?nom_auteur. 
?creator foaf:givenName ?prenom_auteur. 
?o dcterms:coverage ?uri_pays. 
?o dces:coverage ?coord_geo 
FILTER (regex(?id, "10670") 
&& regex(?uri_pays, "223816") 
&& regex(?coord_geo, "[0-9]")) 
} LIMIT 500

En posant cette requête SPARQL dans l’interface d’interrogation SPARQL d’Isidore, il est possible de récupérer les métadonnées, en fait les informations contenues dans les métadonnées, sous la forme de triplets RDF. Ces triplets RDF, base du web de données, peuvent donc être redondant si l’information fait appel aux même étiquettes d’un même vocabulaire (cf ex. ci-dessous). Le résultat de la requête est présenté dans différents formats (RDF/XML ; HTML ; json…).

A partir de là, de nombreuses petites applications web sont possibles, elle sont souvent nommées « mashup » car elles marient, grâce au liant que permet l’utilisation d’URIs à base d’http, plusieurs informations présentes dans le web de données.

Variantes… avec les enrichissements proposés par Isidore et issus des différents traitements effectués :

PREFIX dcterms: <http://purl.org/dc/terms/> 
PREFIX dces: <http://purl.org/dc/elements/1.1/> 
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

select ?id ?titre ?uri_pays ?uri_enrichissements_ISIDORE 
?nom_auteur ?prenom_auteur ?coord_geo where { 
<http://www.rechercheisidore.fr/resource/10670/2.hlil75> ?p ?o. 
?o dcterms:identifier ?id. 
?o dcterms:title ?titre.
?o dcterms:subject ?uri_enrichissements_ISIDORE.
?o dcterms:creator ?creator. 
?creator foaf:familyName ?nom_auteur. 
?creator foaf:givenName ?prenom_auteur. 
?o dcterms:coverage ?uri_pays. 
?o dces:coverage ?coord_geo 
FILTER (regex(?id, "10670") 
&& regex(?uri_pays, "223816") 
&& regex(?coord_geo, "[0-9]")) 
} LIMIT 500

Ou encore avec les mots-clés d’origine et les enrichissements :

PREFIX dcterms: <http://purl.org/dc/terms/> 
PREFIX dces: <http://purl.org/dc/elements/1.1/> 
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

select ?id ?titre ?uri_pays ?mots_cles ?uri_enrichissements_ISIDORE 
?nom_auteur ?prenom_auteur ?coord_geo where { 
<http://www.rechercheisidore.fr/resource/10670/2.hlil75> ?p ?o. 
?o dcterms:identifier ?id. 
?o dcterms:title ?titre.
?o dces:subject ?mots_cles.
?o dcterms:subject ?uri_enrichissements_ISIDORE.
?o dcterms:creator ?creator. 
?creator foaf:familyName ?nom_auteur. 
?creator foaf:givenName ?prenom_auteur. 
?o dcterms:coverage ?uri_pays. 
?o dces:coverage ?coord_geo 
FILTER (regex(?id, "10670") 
&& regex(?uri_pays, "223816") 
&& regex(?coord_geo, "[0-9]")) 
} LIMIT 500

La « vue » des triplets RDF d’une ressource est bien sur directement possible :

SELECT ?graph ?predicat ?object WHERE { 
GRAPH ?graph { <http://www.rechercheisidore.fr/resource/10670/1.f2v6vz> ?predicat ?object. } 
}

Bon, je m’arrête là pour ce premier petit billet qui n’a pas d’autre vocation que de présenter des exemples de requêtes SPARQL sur des données SHS afin de mettre un peu l’eau à la bouche aux développeurs web du domaine qui pourraient ainsi avoir des idées de mashup pour leurs productions. La prochaine fois, je présenterai comment est formé de la requête.

Stéphane.

A quoi sert la dame du CDI ?

Dans le débat qui anime « l’initiative » : comment j’ai pourri le web ; je signale un billet intéressant sur Métro-boulot-catho. Je ne partage pas la conclusion qui consiste à dire : « on ne profite vraiment du numérique que quand on a formé son esprit sans lui » car je pense que ce n’est pas le support qui est en cause, mais la façon dont « le net » est envisagé à l’école et dans l’enseignement. Nous sommes là dans cas un caricatural il me semble mais posant la question. Ainsi je trouve très pertinente la remarque dans le billet de Métro-boulot-catho :

« Alors oui, il faut une vraie formation à l’information. Mais à moins de créer une discipline documentation, ce qui n’est pas à l’ordre du jour5, cette formation ne peut se faire que dans le cadre des autres disciplines. Ce collègue, au lieu de se donner tout ce mal pour piéger ses élèves, n’aurait-il pas mieux fait d’aller rencontrer son collègue profdoc pour monter une séquence digne de ce nom ? D’emmener ses élèves deux ou trois heures au CDI, pour les faire réfléchir par eux-mêmes aux raisons qui les conduisent à utiliser Internet sans discernement ? Initier à l’information, c’est ce pour quoi les profdocs choisissent ce métier. Ce collègue va-t-il reconnaître que nous avons des propositions à lui faire ? »

Les métiers de l’information, la documentation en particulier, ont effectivement des propositions à faire et d’ailleurs pas que pour les profs et leurs élèves… je pense aussi aux chercheurs, aux informaticiens, etc. dans mon domaine. Comme je l’ai souvent dit, il faut faire au moins 50% du chemin vers la question de l’autre.

Stéphane.

Les corpus au pays des modules

Dans un billet récent, Alexandre Moatti, faisait quelques remarques sur la bibliothèque numérique de l’Institut. Dans son texte, il fait référence à ICEberg, un logiciel que j’ai créé en 2002-2003 afin de proposer un outil de mise en ligne de corpus numériques. ICEberg a évolué avec le temps et il a été ré-écrit 3 fois depuis 2002.
C’est normal, les outils en ligne (les applications web) sont très vite obsolètes : les briques permettant de les construire (PHP, Python, Jquery, etc.) évoluent en permanence et contraignent donc les développeurs et webmasters à faire régulièrement des nouvelles moutures de leurs programmes. Depuis la généralisation des systèmes de gestion de contenu (CMS) de 2eme et 3eme génération se sont ajoutées aux couches basses (PHP, MySQL, version d’Apache ou d’IIS) une kyrielle de modules qui ont la fâcheuse tendance à ne plus être compatibles avec le noyau du CMS après parfois quelques semaines seulement.
Dans certains cas, des modules importants ont été incorporés dans le noyau ; mais pour beaucoup de fonctionnalités, le recours à de nouveaux modules répondant à des besoins toujours nouveaux (OAI-PMH, « zotero inside », galeries d’images, etc.) est devenu un automatisme pour les webmasters : « oh, il doit y avoir un module qui fait cela ». Dans certains cas, le nombre de modules est déjà très important alors que l’outil lui-même vient tout juste de passer en version 1.0. Si la qualité des modules et leur nombre peuvent être des signes de la vitalité d’un projet, il faut cependant faire attention à bien anticiper la maintenance sur le moyen terme (je dis bien moyen terme, tant le long terme n’est pas compatible avec l’obsolescence des outils web je pense).
Confier de façon exclusive à un module en version béta par exemple, l’interopérabilité OAI-PMH des métadonnées de son corpus, veut dire que l’on prend un risque à moyen terme, si le module n’est plus maintenu pour x. raison(s). Je ne dis pas qu’il ne faut pas l’utiliser, mais il faut avoir conscience du risque et donc avoir des solutions de remplacement. Il faut faire de la veille. Pour illustrer cela, l’animation et la veille faite par l’équipe d’Open Edition sur les modules de la plate-forme hypotheses.org est exemplaire : les modules demandés par les blogueurs sont testés, évalués puis le cas échéants proposés dans les blogs. Cependant, à moyen terme, cela n’enlève pas l’obsolescence technique des modules, mais permet d’anticiper l’évolution. La veille est donc l’indispensable compagnon des administrateurs de sites et bibliothèques.

Mais au delà, je me pose la question de la limite des CMS dans le contexte de la recherche par projets (c’est à dire avec des ruptures de charges). Les bibliothèques scientifiques, universitaires et de recherche devraient développer des structures de conservation des corpus numériques incluant, outre l’archivage pérenne des données, la conservation de la structuration intellectuelle du corpus (structuration des bases de données, manuels de saisie, publications associé aux données, schéma de métadonnées, etc.). Encore une fois, c’est par l’association des métiers et le passage de responsabilité entre les acteurs du domaine que la pérennité deviendra réelle.

Interopérabilité autour de l’édition électronique de la correspondance d’Eugène Delacroix

Le Centre André Chastel (Université de Paris-Sorbonne, Paris IV, CNRS, Ministère de la Culture et de la Communication) propose une édition électronique de la correspondance d’Eugène Delacroix (1798-1863). Accessible sur le site www.correspondance-delacroix.fr, le site est très clair et fonctionnel : il y a un moteur de recherche, un index des noms de personnes, des liens offrent la possibilité de naviguer dans le corpus. La visualisation des lettres est aussi très intéressante : fac-similés (flash, mais visualisation de l’image jpg sous ipad par exemple), transcriptions, notices biographiques, annotations, etc. Le projet semble très bien mené et rentre dans le mouvement des éditions électroniques de correspondances (littéraires, scientifiques, etc.). Ce projet a été financé par l’Agence nationale de la recherche en 2006 (appel Corpus).

On peut cependant regretter d’avoir à faire à un site « clos ».

Je m’explique : les éditeurs ont conçu un site très riche et bien pensé, mais ils n’ont pas mis en place de politique de flux de diffusion (RSS, Atom) permettant par exemple de suivre, depuis un outil de veille, les mises à jour des annotations afin de suivre les débats des spécialistes. C’est dommage car le site se veut vivant : « …grâce à la mise en ligne, [les transcriptions et annotations] seront toujours susceptibles de modifications et d’ajouts » est-il précisé dans la présentation du projet. Quel est le système de transcriptions qui a été utilisé ? Text Encoding Initiative ? Nous ne le savons pas : c’est dommage car cela aurait marqué un peu la préoccupation des éditeurs en matière d’archivage des transcriptions (même si TEI n’est pas parfait, c’est déjà au moins du XML). Autre manque : alors qu’un effort a été visiblement fait pour rendre citable les url des lettres (indépendance des liens vis à vis du système de publication), il n’est pas fait état d’un hypothétique entrepôt OAI-PMH permettant de moissonner les métadonnées des lettres de Delacroix afin de les diffuser dans les portail tel OAIster, Gallica ou ISIDORE, comme c’est le cas pour les correspondances d’André-Marie Ampère ou encore Buffon. Est-ce une volonté des éditeurs ? un oubli par manque d’information (OAI-PMH reste tout de même assez mal connu) ? Je ne sais pas. Mais, je pense qu’il est toujours dommage de ne pas disséminer les contenus d’une édition électronique d’une œuvre scientifique, littéraire ou artistique vers des portails thématiques ou disciplinaires afin de communiquer plus largement les sources de la recherche et de les rapprocher d’autres ressources. Globalement, le corpus est certes utilisable mais est-il réutilisable ? Je l’espère. En tout cas, il me tarde de voir signaler les échanges épistolaires d’Eugène Delacroix dans ISIDORE (qui contient déjà 256 ressources sur ce dernier).

Bielefeld Academic Search Engine

Le portail BASE (Bielefeld Academic Search Engine) est un aggrégateur OAI-PMH moissonnant 1890 entrepôts OAI dans le monde (au 2 juillet 2011) et donnant accès à 28.911.265 notices. Utilisant Solr et le système d’opac VuFind, BASE est accessible via un site web très clair, rapide et fonctionnel. Sans proposer, comme dans ISIDORE, un enrichissement des métadonnées à l’aide de référentiels, ni l’indexation du texte intégral des données jointes aux notices OAI, BASE est un outil très performant qui fait partie des fournisseurs de services. « Fournisseurs de services »… cette expression, un peu obscure je trouve, désigne le plus souvent les portails documentaires moissonnant des métadonnées selon le protocole OAI-PMH. Après OAIster (aujourd’hui dissout dans l’offre d’OCLC), Scientificcommons.org, BASE a ses adeptes. En tous cas, ce projet conforte certains choix que nous avons fait dans ISIDORE : la mise en place d’un annuaire des entrepôts moissonnés (« A data resources inventory provides transparency in the searches« , voir dans « About BASE« ) ou encore la notion de web profond ou invisible « Discloses web resources of the « Deep Web », which are ignored by commercial search engines or get lost in the vast quantity of hits.« . Bien sur, la notion de facettes, mais calculées uniquement sur les contenus des métadonnées moissonnées : « Refine your search result » options (authors, subject headings, year, resources and language).

Limité à OAI-PMH, et donc à des métadonnées proposées sous la forme d’atomes sans relief, ce type de portail, comme ISIDORE d’ailleurs, devra évoluer car il est toujours un peu frustrant de ne pas naviguer dans des données en « relief ». ISIDORE, avec son SPARQL end point RDF contenant plus de 40 millions de triplets RDF, va déjà un peu plus loin, mais il nous faut imaginer des nouveaux systèmes de navigation et de signalement pour ces informations structurées en RDF.

Stéphane.

ISIDORE : valorisons les données des sciences humaines et sociales

Aujourd’hui, j’ai le plaisir de participer au lancement officiel d’ISIDORE, la plateforme de recherche dans les données numériques de la recherche en sciences humaines et sociales. Réalisée par le très grand équipement Adonis du CNRS, ISIDORE est une production collective qui a associé depuis plus de deux ans des acteurs publics et des acteurs privés au sein d’un marché de réalisation. Public tout d’abord : ISIDORE est un projet qui est la matérialisation concrète du projet fondateur du TGE Adonis : donner accès à de l’information, ouvrir des données, rendre visible la production des chercheurs et les données qu’ils utilisent pour travailler. Au sein du TGE Adonis un grand nombre de collègues ont travaillé pour ce projet, ils ont défini le projet, l’ont argumenté, le réalise aujourd’hui : c’est un travail d’équipe, long, complexe, parfois périlleux car il faut faire acte de pédagogie et de pragmatisme technique. Je vous invite à consulter ISIDORE, à le critiquer pour le faire évoluer car un outil tel que celui-ci doit évoluer en permanence. Je veux simplement souligner le très grand professionnalisme des collègues, partenaires industriels, qui ont partagé avec moi l’ensemble de la conception/réalisation de ce projet depuis mon arrivée au TGE en avril 2009 : Yannick, Benoit, Ariane, Nadine, Jean-Luc, puis Richard et Jean-Luc, Sophie, Shadia, L’équipe de la maitrise d’œuvre avec un immense respect pour Laurent tout d’abord, puis Daniel, Loic, Philippe, enfin tous les collègues du CNRS qui ont participé, soutenu, critiqué, aidé. Coté prestataires, je souligne le très grand professionnalisme des équipes ont travaillé avec nous et bien sur merci à Bruno, Jean-Louis, Fabrice et Gautier sans qui ISIDORE ne serait pas ISIDORE. Merci à tous !!

Stéphane.

Thésaurus et web de données : l’exemple du Thésaurus W

Les archives de France proposent depuis quelques semaines selon les principes du web de données et du linked data le Thésaurus pour l’indexation des archives locales qui remplace l’édition 1997 du Thésaurus W et la version 2000 des listes d’autorité « actions », « typologie documentaire » et « contexte historique ». Un site web très clair a été réalisé pour l’occasion : il offre la possibilité de consulter le thésaurus bien sur, d’en télécharger une version RDF/XML mais surtout de l’interroger via le langage SPARQL qui est le langage de requête des données structurées en RDF. Ce point d’accès, on le nomme SPARQL end point (point d’accès SPARQL), est illustré de requêtes de démonstration permettant aux débutants en SPARQL d’être un peu autonome dans ce monde encore nouveau. Cette initiative est importante : elle ouvre des données publiques, elle permet de s’appuyer sur les référentiels des Archives de France pour qualifier des données tiers et donc construire des applications web riches. Dans le projet ISIDORE, nous avons d’ailleurs utilisé la liste d’autorités « contexte historique » afin d’accrocher les notices ISIDORE à des périodes historiques. Ce site est un très bel exemple de l’utilisation des méthodes du web de données pour les données publiques.

La correspondance d’André-Marie Ampère structurée avec RDFa

J’ai RDFaisé la correspondance d’André-Marie Ampère (1775-1836) éditée en ligne sur le site @.Ampère et l’histoire de l’électricité créé par Christine Blondel (Chercheuse au CNRS) et auquel j’ai participé en 2008/2009. Cette édition électronique, réalisée avec l’aide de Delphine Usal (CNRS) et Marie-Hélène Wronecki (contractuelle au CNRS) permet de mieux connaitre la vie de ce savant du XIXe siècle. Les éditeurs la présente ainsi :

La Correspondance d’Ampère regroupe les lettres qu’il a reçues et qu’il a envoyées. Elle offre un éclairage exceptionnel sur la vie personnelle, professionnelle et intellectuelle d’un des savants français majeurs du début du XIXe siècle. Plus de 1100 lettres sont actuellement accessibles en ligne.

Ce corpus de données, limité mais assez complexe, m’a semblé être intéressant pour réaliser un travail de structuration utilisant RDFa (voir le billet sur MédiHAL et le RDFa). J’espère que d’autres sites web diffusant des corpus historiques s’engageront dans l’implémentation/structuration de l’information selon les principes du RDF.

C’est un exemple, permettant via ISIDORE de montrer l’intérêt de l’utilisation du RDF dans les corpus en ligne (j’en profite pour signaler un tutoriel en anglais sur la question des structures RDFa dans wordpress et drupal qui me semble très bien fait et tout à fait intéressant). Mais d’autres projets sont en cours, par exemple : le Système d’information en philosophie des sciences (ou SIPS) qui sera donc, j’espère très bientôt, dans ISIDORE.

Bonne navigation structurée à tous !

Stéphane.

Accompagner la recherche

Bonne année 2011 à tous !

Le numérique change les métiers de l’information scientifique et technique et de la communication. Il y a quelques semaines, les ingénieurs, les assistants ingénieurs et les techniciens du CNRS travaillant dans le secteur des sciences humaines et sociales étaient réunis à Paris pour une journée d’étude dans laquelle j’ai eu le plaisir de présenter MédiHAL. Je trouve cela très bien car il se créé ainsi une dynamique entre les personnes et les équipes. En discutant avec les collègues j’ai pu mesurer la nécessiter de passer rapidement d’un web de document à un web des données scientifiques fondé sur les principes du web de donnée (dont le RDF) et du linked data (la généralisation des URI). Ce qui m’a le plus frappé est le besoin, clairement exprimé maintenant, de mettre à disposition des données numériques en grande quantité tout en préservant le besoin de qualité de ces données.

Ce qui est également important, c’est la prise de conscience collective que maintenant il est possible de mettre en place des grands réservoirs de données, des bibliothèques de matériaux imprimés, manuscrits, photos, etc. et de le faire dans un cadre de travail standardisé, respectant des normes de description et s’interconnectant avec plusieurs outils d’éditions, de recherche, de traitement de l’information. La construction d’un web des données scientifiques, en SHS, est en marche et il s’intègre dans la construction du web de données général au sens du W3C. Ce web de données scientifiques n’est pas fermé sur lui-même, il est (et doit être) interopérable avec le reste du web de données. J’espère que le mouvement va s’accentuer, se développer.

Dans quelques années, les ingénieurs, assistants ingénieurs, techniciens du monde de la recherche scientifique et de l’enseignement supérieur, pourront construire des applications, des bases de données, des portails qui iront puiser de l’information directement dans le web. Ils iront interroger simultanément de multiples « triple stores » que sont ces grosses bases de données et réservoirs contenant de l’information interconnectée.

Lors de cette journée d’étude j’ai été aussi frappé de l’interaction entre les acteurs présentant des projets, plateformes, outils, méthodes : tous les projets sont interconnectés entre eux et à plusieurs niveaux ; les données aussi sont interopérables, entre elles, mais aussi vers l’extérieur, avec des données du monde entier.

Fièrement propulsé par WordPress & Thème par Anders Norén