sp.Blog

le blog de Stéphane Pouyllau

MédiHAL, 5 ans et 24000 photos et images scientifiques plus loin…

Lancé en 2010 par le Centre pour la communication scientifique directe du CNRS et avec l’aide du TGE Adonis (devenu depuis Huma-Num) et du CN2SV, MédiHAL est une archive ouverte de photographies, d’images, et maintenant de vidéo qui compte plus de 24000 entrées venant principalement du domaine des SHS (mais pas que !). Ayant participé à sa création avec S. Kilouchi, D. Charnay et L. Capelli, je suis très content du chemin parcouru par ce projet, modeste au départ, qui fut réalisé rapidement (quelques mois) et finalement avec assez peu de financement (uniquement les salaires des acteurs concernés).

MédiHAL

MédiHAL, vue en 2016

Après 5 ans de travail autour de MédiHAL, principalement dans l’animation/promotion de cet objet et dans la validation des dépôts,  et parce que mes occupations actuelles au sein d’Huma-Num sont très intenses, j’ai estimé qu’il était temps de passer la main à d’autres. C’est désormais, le CCSD qui assurera la validation des dépôts dans MédiHAL ainsi que la définition des évolutions futures de la plateforme. Beaucoup de personnes ont contribué à améliorer MédiHAL depuis le début et j’espère que cela continuera car si l’outil se veut simple, il y aura toujours des choses nouvelles à proposer autour des archives ouvertes de données (en particulier en lien avec les publications). MédiHAL contient des images et des photographie qui ont aujourd’hui une valeur scientifique et patrimoniale particulière qui raisonnent avec l’actualité, en particulier les séries de photographies du temple de Bêl à Palmyre (Syrie) issues des collections de l’Institut Français Du Proche-Orient (ifpo).

Palmyre, Temple de Bel

Palmyre, Temple de Bel

J’ai été très heureux de participer à ce projet et je lui souhaite plein de bonnes choses pour le futur ! Et via ISIDORE, qui moissonne MédiHAL et HAL, je regarderai avec bienveillance grandir le corpus de MédiHAL !

Stéphane.

Un Macintosh Plus de 1986 connecté à Internet ?

Après l’opération « on échange des fichiers entre un Macintosh Plus de 1986 et un MacBook Pro » via Zterm et un cable série…

Zterm_MacOS10

Zterm_MacOS6

… voici l’opération « un Macintosh Plus de 1986 se connecte à Internet » réalisée ! J’avais mis cela sur Facebook il y a quelques semaines et j’en fait un mini billet pour les amateurs de rétro-informatique (je ferai un billet plus détaillé, avec captures d’écran « cathodique de 9 pouces » dans quelques temps).

Pour information le Macintosh Plus date de 1986, il a 4 méga-octets de RAM (!) et tourne sous Mac OS 6.0.8 et se connecte à Internet via MacPPP + MacTCP et une connexion série sur un Raspberry Pi équipé du programme SLIRP qui fait le pont vers internet (d’un port série à du RJ45). Le Raspberry Pi (modèle B) tourne sous Raspbian. SLIRP simule une connexion PPP et fait le pont vers le réseau TCP/IP. 

RaspberryPi

11147089_10153178469812910_1968912769725771678_nRésultat : on surfe à la vitesse ultra rapide de… 19200 bit/s (19 kbit/s) ! Cela est suffisant pour faire du… FTP ou du Telnet (haaaa NCSA Telnet !).

Cela permet de se rendre compte qu’entre 1990 et 1995 se connecter à Internet et à ses services ( gopher, WWW, etc.) n’était pas si évident pour qui avait investi dans les années 80 dans un macintosh. Il est intéressant de voir aussi que les « couches » de protocoles, services étaient encore bien visibles et séparées les unes des autres. PPP d’un coté pour établir la connexion, MacTCP pour la couche TCP/IP, MacWWW (de Robert Cailliau !), Eudora pour les emails (et encore sur le port 25 en SMTP c’est dur aujourd’hui… Mais mon synology est là pour faire le pont…)… Refaire vivre la technologie d’il y a juste 20 ans n’est pas simple mais on y arrive.

Prochaine étape :

1/ Mettre en place MacWeb premier navigateur web pour Mac OS ! Mais là j’ai besoin de passer le Macintosh Plus sous system 7.0.x, et là, les 4 Mio de RAM vont être justes…

2/ Ecrire un billet dans mon blog présentant tout cela !

PS : Je ne suis pas le premier à le faire … Jeff (http://www.keacher.com/…/how-i-introduced-a-27-year-old-co…/) m’a bien aidé d’ailleurs ! merci à lui…

Parution « Le temps des humanités digitales »

Bonjour,
Je signale la parution chez Fyp éditions de l’ouvrage dirigé par Olivier Le Deuff et dans lequel j’ai contribué (un petit peu) : « Le temps des humanités digitales, la mutation des sciences humaines et sociales ». Ce livre collectif donne des pistes pour découvrir et s’approprier le mouvement des humanités « digitalo-numériques ». Au fil des chapitres, il est aussi clair que l’on sent bien que le « poids » du Web est de plus en plus important pour le secteur de la recherche en SHS : les outils de traitements, documentations et visualisations passent tous par le Web (et donc par le protocole HTTP). Cela renforce l’importance des enjeux de la bonne compréhension de ce dernier (ex. : le Web et Internet, c’est différent !) en particulier à l’heure du web des données. Bonne lecture !

Stéphane.

Le temps des humanités digitales

Résumé éditeur : « Les humanités digitales se situent à la croisée de l’informatique, des arts, des lettres et des sciences humaines et sociales. Elles s’enracinent dans un mouvement en faveur de la diffusion, du partage et de la valorisation du savoir. Avec leur apparition, les universités, les lieux de savoir et les chercheurs vivent une transformation importante de leur mode de travail. Cela entraîne une évolution des compétences et des pratiques. Cet ouvrage explique les origines des humanités digitales et ses évolutions. Il décrit leurs réussites, leurs potentialités, leur rapport à la technique et comment elles transforment les sciences humaines, la recherche et l’enseignement. Il examine les enjeux des nouveaux formats, modes de lecture, et des outils de communication et de visualisation. Ce livre permet d’aller plus loin dans vos pratiques et vos réflexions. Le temps des humanités digitales est venu ! »

Sous la direction d’Olivier Le Deuff. Avec les contributions de Milad Doueihi, Jean-Christophe Plantin, Olivier Le Deuff, Frédéric Clavert, Frédéric Kaplan, Mélanie Fournier, Nicolas Thély, Marc-Antoine Nuessli, René Audet, Stéphane Pouyllau, Frank Cormerais, Sylvain Machefert.

Utiliser Isidore pour ses propres données (quand on est, par exemple, dans un labo)

Isidore peut être un moyen, pour un laboratoire ou une équipe de recherche, d’enrichir et de relier des métadonnées et donc, par cette voie, des données. Comment faire ? En premier lieu, il faut faire entrer ses données dans Isidore, je renvois le lecteur à la page « à propos » du site Isidore. Ensuite, via le triple-store (une grosse base d’information construite selon les principes du RDF et qui est au cœur d’Isidore), il est donc possible de récupérer des métadonnées dites « enrichies » : c’est à dire les métadonnées fournies par le producteur et les enrichissements sémantiques créés par Isidore.

Le triple-store est accessible en ligne, soit dans une interface pédagogique (qui donne les clés pour comprendre le triple-store) : http://www.rechercheisidore.fr/sqe soit dans l’interface de notre outil de triple-store Virtuoso (et plus familier pour les webmasters) : http://www.rechercheisidore.fr/sparql. L’interface d’interrogation d’un triple-store (ou encore 3store) est appelée aussi SPARQL endpoint (point d’accès en langage SPARQL d’un triple-store).

Une requête très simple pour débuter en reprenant un cas concret : je suis un webmaster d’un projet ANR et je souhaite récupérer les métadonnées enrichies des documents de mon projet, indexés par Isidore. La requête ci-dessous me permet de lister toutes les ressources de mon projet (identifiées par un identifiant pérenne handle, apposé gratuitement – et réutilisable librement – par Isidore) :

PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX dces: <http://purl.org/dc/elements/1.1/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

SELECT DISTINCT ?isidore_handle ?titre ?date WHERE {
<http://www.rechercheisidore.fr/resource/10670/2.3gmog5> ?p ?o.
?o dcterms:title ?titre.
?o dces:date ?date.
?o dcterms:identifier ?isidore_handle
FILTER (regex(?isidore_handle, "10670"))
}

Voir le résultat de la requête

En PREFIX, j’indique par leurs URI, les vocabulaires documentaires utilisés dans le triple-store d’Isidore pour décrire les informations (notez qu’il y en a plusieurs, nous y reviendrons). dcterms et dces (pour Dublin Core Element Set) pour les métadonnées documentaires, FOAF pour décrire les informations relatives aux personnes (ici, des auteurs).
Le SELECT, WHERE et FILTER vont me permettre d’exécuter ma requête et d’en filtrer les réponses : avec l’utilisation ici d’une expression régulière me permettant d’isoler les triplets et donc de dédoublonner ces derniers pour une meilleure lecture. En effet, SPARQL permet de rechercher des informations sous la forme de triplets RDF (sujet, prédicat, objet).

Isidore, vous le savez, enrichit les ressources qu’il moissonne (voir ici). Ainsi, il est aisé d’utiliser le triple-store d’Isidore pour récupérer des signalements de données enrichie sur un territoire (puisque Isidore relie le contenu des ressources moissonnées avec des concepts issus du référentiel géographique mondial GeoNames). Ici, une requête permettant de récupérer tous les articles (uri : http://www.rechercheisidore.fr/ontology/art) ressources ayant été relié au département de la Seine-Saint-Denis (les Séquano-Dionysiens seront content) par un filtrage sur ‘2975246’ de l’uri http://sws.geonames.org/2975246/ de GeoNames :

PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX dces: <http://purl.org/dc/elements/1.1/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
PREFIX ore: <http://www.openarchives.org/ore/terms/>

SELECT ?resource ?title ?url ?source ?country WHERE {
?resource dcterms:type <http://www.rechercheisidore.fr/ontology/art>.
?resource dcterms:title ?title.
?resource ore:aggregates ?url.
?resource ore:isAggregatedBy ?source.
?resource dcterms:coverage ?country.
FILTER (regex(?resource, "10670", "i") && regex(?country, "2975246", "i"))
} GROUP BY ?resource

Voir le résultat de la requête

Le triple-store d’Isidore permet de « sortir » les données dans plusieurs format, CSV, RDF/XML, JSON suivant ce que l’on veut faire des informations (applications en ligne de visualisation de données par exemple) : très pratique justement pour les webmasters qui connaissaient bien ces formats.

La force d’Isidore est d’enrichir les ressources à l’aide de référentiels scientifiques, ainsi il est possible d’avoir la liste des ressources correspondant à l’une des catégories de Calenda venant des 2000 producteurs de données présents dans Isidore. En effet, l’ontologie d’ISIDORE aligne ensemble plusieurs URIs venant de plusieurs référentiels disciplinaires de SHS (HAL-SHS, Calenda, Thésaurus W du ministère de la Culture et de la Communication, dbpedia, etc.), exemple avec cette requête :

SELECT ?predicat ?objet {
<http://www.rechercheisidore.fr/subject/SHS:HIST> ?predicat ?objet
}

Voir le résultat de la requête

qui donne :

predicat objet
http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://www.w3.org/2004/02/skos/core#Concept
http://www.w3.org/2004/02/skos/core#inScheme http://www.rechercheisidore.fr/categorie
http://www.w3.org/2004/02/skos/core#prefLabel « Histoire »
http://www.w3.org/2004/02/skos/core#prefLabel « History »@en
http://www.w3.org/2004/02/skos/core#prefLabel « Història »
http://www.w3.org/2004/02/skos/core#broader http://www.rechercheisidore.fr/subject/SHS
http://www.w3.org/2004/02/skos/core#exactMatch http://calenda.revues.org/categories.rdf#categorie20
http://www.w3.org/2004/02/skos/core#exactMatch http://dbpedia.org/resource/History

On voit bien qu’il est facile d’utiliser l’alignement proposé par l’ontologie d’Isidore entre Dbpedia, Calenda, HAL-SHS pour la discipline ‘Histoire’. Ainsi, il est possible de demander à Isidore toutes les ressources qui sont tagguées avec l’URI <http://www.rechercheisidore.fr/subject/SHS:HIST> (ici limité à 100 ressources) :

PREFIX sioc: <http://rdfs.org/sioc/ns#>
PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX dces: <http://purl.org/dc/elements/1.1/>

SELECT ?resource ?title WHERE {
?resource sioc:topic <http://www.rechercheisidore.fr/subject/SHS:HIST>.
?resource dcterms:title ?title
FILTER (regex(?resource, "10670", "i"))
} LIMIT 100

Voir le résultat de la requête

Aller, maintenant à vous ! Proposez-moi vos requêtes dans les commentaires ! L’auteur de la plus originale gagnera une carte postale d’Isidore dédicacée par l’équipe !

Bon SPARQL sur Isidore !

Stéphane.

Le libre accès privatisé ?

A l’occasion de la semaine du libre accès (open access week, du 21/25 octobre 2013), j’ai découvert un peu plus le projet MyScienceWork (MSW) qui se veut être un projet de réseau social centré sur les sciences. Ces réseaux ne sont pas nouveaux, ils sont assez nombreux : de Researchgate.org à Academia.edu. De façon plus claire, sur la première page de son site web, MSW propose un moteur de recherche assez large et qui affiche au compteur 28 millions de publications, … Certains chercheurs me diront que c’est spectaculaire, merveilleux et qu’il y a tout dans ces moteurs de recherche de réseaux sociaux mais je répondrai qu’il est facile d’afficher 28 millions de publications : il suffit de moissonner soit le web et de trier les sources, soit des entrepôts d’archives ouvertes selon le protocole OAI-PMH et de faire comme OAIster.org il y a quelques années : grossir, grossir, grossir… Ensuite il faut bien sur une interface et des filtres (facettes, etc.). Il est facile de faire du chiffre dans ce domaine là quand l’OAI-PMH permet le moissonnage gratuit de métadonnées et la récupération – par exemple – des articles en PDF qui y sont déposés. Testant le moteur de recherche de MSW justement, quelle ne fut ma « surprise » de voir que ce réseau – tout en se réclamant de libre accès (leur slogan est « MyScienceWork: Frontrunner in Open Access » – en malmène largement les principes ; voir construit son projet en privatisant de la connaissance en libre accès.

MSW Login

Comme beaucoup de personnes, à la vue d’un outil de recherche en ligne, mon narcissisme reprend du poil de la bête, je requête MSW sur mon patronyme : un grand nombre de mes articles, pré-publications, documents sortent. Je me dis alors qu’ils moissonnent HAL-SHS, l’archive ouverte nationale, et que dont voilà une belle initiative valorisant les contenus en libre accès. Hélas, voulant accéder au document PDF de l’un de mes papiers (en libre accès), je découvre qu’il faut avoir un compte MSW pour télécharger le document ou le lire en ligne (c’est à dire utiliser le lecteur PDF de MSW). Résumons, alors que mes articles sont libre accès dans HAL-SHS et au passage que je me suis battu (avec les éditeurs) pour qu’ils le soient, MSW demande aux utilisateurs venant sur leur moteur de recherche de se créer un compte pour voir mes papiers ! Sans compte dans MSW impossible de télécharger l’article PDF ou de le lire.

Pire, il n’est même pas signalé l’origine des publications : ni source, ni référence d’éditeurs, et donc HAL-SHS n’est même pas mentionné ! L’url pérenne fournie par HAL-SHS n’est pas indiquée non plus, le lien proposé pointe sur une adresse « maison » de MSW qui n’a rien de pérenne (elle est explicite, mentionne le nom du réseau : http://www.mysciencework.com/publication/show/1107184/les-moteurs-de-recherche-profitent-aussi-de-la-semantique). Bref, on ne sait pas d’où vient l’article, ni dans quoi il a été publié ! Parfois une mention « In » apparait, mais pas dans mes articles. Voir la différence de traitement du même papier que j’ai déposé dans HAL-SHS et moissonné dans MSW (éditeur mentionné par ex. dans mon dépot HAL-SHS) :

Article dans hal-shs

 

Article dans msw

Je garde le meilleur pour la fin, dans le cas des dépôts dans HAL-SHS, aucun des liens proposés par MSW ne permet d’accéder à l’article PDF ! Je me suis créer un compte « pour aller au bout » et surprise : que des pages 404 (au 28/11/13) ! Rien ! Impossible d’atteindre les articles alors qu’ils sont bien dans HAL-SHS. Bien sur, sur ce point, il doit sans doute s’agir d’une interruption « momentanée » des liens (c’est assez classique dans moteur de recherche, lors des ré-indexations), mais quand bien même ils fonctionneraient (les liens) il est difficile de savoir que l’article est en ligne ailleurs, sur HAL-SHS : le lecteur en ligne de MSW est une petite fenêtre en pop-up. Bref, cela ne fait qu’aggraver le cas je trouve, car j’ai l’impression que l’on « cache » le fait que l’article est en ligne en AO avec des métadonnées plus riches (cf. halshs.archives-ouvertes.fr/halshs-00741328).

Pourquoi ? Imaginons un étudiant qui débute cette année en master 2 et qui s’intéresse à l’histoire des maisons fortes du Moyen-âge dans le sud-ouest (bref, moi en 1997) et qui tombe sur le moteur de recherche de MSW. Il tombe sur mon DEA et mes articles sur le Boisset et se dit qu’il doit y avoir dedans des choses à prendre et bien même avec un compte MSW il n’est pas sûr d’avoir accès aux documents ! C’est vraiment dommage car par ailleurs, ils sont sur HAL-SHS, ils sont en libre accès, ils peuvent être cités par leur url (mieux : par les identifiants pérennes handle d’Isidore que je mentionne d’ailleurs dans les métadonnées de HAL-SHS), ils mentionnent l’email et les contacts de l’auteur (au cas où l’étudiant ait envie de me contacter), ils sont reliés à d’autres données dans le cadre d’Isidore (j’espère que sa BU lui a conseillé d’utiliser Isidore)… Bref, d’un coté il a permis à MSW d’engranger de la valeur, mais il n’a pas les documents et donc pas l’information, de l’autre, il a l’information et les documents, le contact, d’autres documents en rapport avec son travail. C’est en cela que je trouve ces pratiques malhonnêtes et que je dis qu’il s’agit de la privatisation de connaissances en libre accès.

J’ai signalé cela sur twitter et MSW m’a répondu sur twitter le 21 octobre 2013 :

Réponse MSW

J’entends bien que le principe est la collecte d’information afin de faire du profilage de personnes, d’ailleurs construire de la valeur sur des données en libre accès pourquoi pas, cela ne me dérange pas dès lors que l’on n’en « privatise » pas l’accès. Pourquoi MSW (et les autres d’ailleurs) n’indiquent-ils pas l’origine des données, que veulent-ils faire croire ? Qu’ils ne moissonnent pas ? C’est à dire que la valeur de leur réseau ne reposerait que sur des métadonnées ? Il me semble que les acteurs publics du libre accès aux données de la recherche devraient fixer des conditions dans les réutilisations des données des AO par exemple : pourquoi ne pas proposer des licences creatives commons, Etalab ou autres ? Cela devrait faciliter les réutilisations et le fait que les données sont en accès libre sur des plateformes publiques ? Je n’entre pas dans les détails juridiques, je ne suis pas assez compétent dans ce domaine, je réfléchis simplement à un de meilleurs accès à l’information.  Les plateformes telles que celle-ci ne devrait elle pas fonder leurs modèles sur la création d’enrichissements, d’éditorialisation des données ? Vous me direz, c’est ce que nous faisons déjà dans Isidore.

En conclusion, étant fonctionnaire et ayant choisi clairement le service public, j’estime que mes travaux doivent être communiqués le plus facilement possible aux publics. Je ne pense pas que les plateformes fondées sur ce modèle favorisent cela et j’estime qu’il y a là une certaine « privatisation » du savoir. Construire de la valeur sur des données gratuites est possible, mais pas en privatisant les données que les auteurs ont placées en libre accès. Ainsi, je souhaite que MSW et les autres réseaux sociaux signalent clairement dans leurs notices :

  • La source des données moissonnées (archives ouvertes, éditeurs, etc.)
  • La mention de la licence quand elle existe
  • Le lien d’origine de la données et l’identifiant pérenne de cette dernière quand il est disponible

Sans doute cela doit nous faire réfléchir, nous acteurs publics de la recherche, aux conditions et règles que souhaitons fixer dans nos interactions (nécessaires) avec la société et donc le monde marchand. Il me semble que les réseaux sociaux, moteurs de recherche sont nécessaires afin de toucher un maximum d’utilisateur et je pense aux étudiants en particulier mais il est de notre responsabilité de favoriser la diffusion des savoirs de façon large et donc de veiller à ce que cela reste possible.

Je rappelle ici, que MSW a organisé en 2013 la semaine du libre accès…

Stéphane.

Structurer les humanités numériques

Alors qu’au THATCamp de St Malo une partie de la « non-communauté » des humanités numériques structure une association francophone, la professionnalisation de ce mouvement s’accélère. Lors du dîné d’hier soir la nécessité d’une revue augmentée est apparue évidente (en tous cas pour moi). Une revue augmentée est une revue où il est possible de publier dans les articles, ou à coté des articles, des données, des programmes, des codes, qui permettent aux lecteurs de suivre le cheminement méthodologie en ayant les moyens de reproduire les démonstration, du moins de tester des choses. Pour illustrer cela, je vous invite à consulté la revue IPOL Journal que j’ai récemment découverte lors des journées Frédoc2013 d’Aussois. Je trouve cela très stimulant ! D’autant que la discussion d’hier soir a jeté les bases de la structure de la revue qui pourrait être éditée par l’association et la question de la place d’articles n’ayant pas une écriture académique a été abordée. Rubriques, cahiers, n° spéciaux, beaucoup de choses sont possibles je pense, et j’y contribuerai avec joie.

Les THATCamps sont des moments assez uniques ou les personnes s’agrègent le temps d’un « week-end » ou plus pour partager leur vision des humanités numériques/digitales. Il y a déjà des comptes-rendus en ligne, dont celui de Camille Bosqué, doctorante à Rennes2 travaillant sur les FabLab, qui a su très bien saisir par le dessin, un moment de l’atelier définissant la constituante de l’association.

Stéphane.

Hypotheses.org et MédiHAL : l’embarquement des images

Bonjour,
Il y a longtemps que je voulais faire une petite vidéo d’écran pour montrer comment « embarquer » – c’est le terme consacré – une photographique numérique déposée dans MédiHAL (réalisée par le centre pour la communication scientifique directe) dans une plateforme d’édition électronique telle que hypotheses.org (réalisée par le centre pour l’édition électronique ouverte). Comme, je suis en congés, j’ai pris le temps de la faire hier soir. Elle inaugure une nouvelle série de billet de ce blog, les « vidéos pédagogiques de pouyllau » qui auront vocation de montrer qu’il est possible d’articuler les plateformes web entre elles afin de proposer des contenus, articles, des données< riches, etc en exploitant les possibilités de partage, API, etc. de ces dernières. Cela dit, je signale d'ailleurs qu'il existe un carnet de recherche sur hypotheses.org qui regroupe des conseils d'utilisation, annonces, autour de la plateforme hypotheses : c'est la maison des carnets. Vous y trouverez une vidéo similaire présentant comment « embarquer » des données venant d’Archive.org, Youtube, etc. MédiHAL, archive ouverte publique, archivée au CINES, présente l’intérêt d’être une plateforme ouverte, proposant plusieurs services de valorisation des fonds photographiques qui y sont déposés : les collections de MédiHAL en particulier.

Sur cela, je vous laisse visionner le tutoriel :

A bientôt pour une prochaine vidéo.

Stéphane.

Les humanités numériques sont-elles dans le monde industriel ?

Pierre BezierA lire les comptes-rendus des différentes journées sur les humanités numériques qui ont lieu ce printemps, je me demande s’il n’y a pas un lien de plus en plus fort entre humanités numériques et le monde industriel. En effet, le monde de l’industrie créé des outils mais surtout y réfléchit et les fait évoluer à la recherche d’une meilleure précision, d’une meilleure performance. Le besoin d’introduire, lors du déroulement d’un projet se réclamant des humanités numériques, une réflexion épistémologique, voir sociologique, me fait penser que le temps du « c’est de la technique, de l’informatique donc ce n’est pas de la science » est peut-être entrain de passer derrière nous. Les humanités numériques se peuplent de séminaires épistémologiques ouvrant une nouvelle dimension pour ce mouvement.  Paradoxalement, une partie d’entre elles pourrait être condamnées « à disparaitre ». Le volet le plus technique, l’adaptation d’outils à un besoin par exemple, pourrait être transformé par la mutation permanente des méthodes et par l’appropriation/démocratisation de savoir-faire dit « technique » par un grand nombre d’acteurs. Un peu comme pour les ouvriers de chez Renault quand l’automation introduite par Pierre Bézier s’est développée. Évolution naturelle ? Les humanités numériques sont elles simplement les sciences humaines et sociales dans un monde numérique ? Donc, nous sommes au moment ou la recherche en SHS se fait avec des outils numériques dans un monde « devenu » lui aussi numérique. Le monde industriel – je pense à l’aviation par exemple – créée ses outils, ses machines-outils, réfléchit sur ces outils, améliore sans cesse ses chaines de production : c’est à dire les liaisons entre les briques-outils qui les composent. Il reste des savoir-faire à relier en particulier sur l’édition-documentation-archivage, il reste des pratiques à changer : séparation données/outils de traitement (dans une perspective d’archivage des corpus de données) ou encore il reste à ré-introduire l’explicitation systématique des méthodes, choix effectués et ne plus parler vaguement par exemple autour de la notion de métadonnées. Ce « parallèle » que je me permet de faire entre humanités numériques et industrie est surtout là pour affirmer qu’elles sont avant tout l’utilisation de techniques dans un processus de recherche, en fait de l’ingénierie (documentaire en particulier), comme Got me le rappelait il y a quelques temps. Ainsi, il ne faudrait pas que soit exclu du mouvement des humanités numériques, des acteurs qui n’incorporeraient pas dans leurs projets cette dimension épistémologique.

Stéphane.

Exprimer simplement les métadonnées d’une page web avec RDFa

Comment exprimer des métadonnées d’une page web très simplement en utilisant la syntaxe RDFa ? Prenons exemple un billet de blog « propulsé » par WordPress. S’il existe des plugins pour cela, l’obsolescence de ces derniers peut rendre difficile leur maintien dans le temps. Autre solution, implémenter RDFa dans le code HTML du thème WordPress que l’on aura choisi. Pour ce que cela soit facile et « gérable » dans le temps, le plus simple et d’utiliser l’entête HTML <head> afin d’y placer des balises <meta> qui contiendront les métadonnées. Exprimer des métadonnées selon le modèle RDF via la syntaxe RDFa permet à des machines (principalement des moteurs de recherche) de mieux traiter l’information car elle devient plus explicite : pour une machine, une chaine de caractère peut être un titre ou un résumé, si vous ne lui dites pas que c’est un titre ou que c’est un résumé elle ne le devinera pas. A minima, il est donc possible d’utiliser les balises <meta> pour définir une structure RDF offrant la possibilité de structurer les métadonnées minimales par exemple avec le vocabulaire documentaire Dublin Core Element Set (plus connu en France sous appellation « Dublin Core simple »).

Comment faire ?

En premier, il faut indiquer dans le DOCTYPE de la page web, qu’elle va contenir des informations qui vont utiliser le modèle RDF, ainsi, le DOCTYPE sera :

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">

Dans la balise <html>, nous allons indiquer les adresses des vocabulaires documentaires – par l’intermédiaire de namespace XML – qui vont nous servir à typer les informations, dans notre exemple, nous allons utiliser le Dublin Core simple et le Dublin Core Terms (DC Terms) :

<html xmlns="http://www.w3.org/1999/xhtml" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" 
xmlns:xsd="http://www.w3.org/2001/XMLSchema#" 
xmlns:dc="http://purl.org/dc/elements/1.1/" 
xmlns:dcterms="http://purl.org/dc/terms/">

Il serait possible, pour encoder plus d’information, d’utiliser plus de vocabulaires documentaires :

<html xmlns="http://www.w3.org/1999/xhtml" 
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
xmlns:dc="http://purl.org/dc/elements/1.1/" 
xmlns:dcterms="http://purl.org/dc/terms/" 
xmlns:skos="http://www.w3.org/2004/02/skos/core#" 
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" 
xmlns:xsd="http://www.w3.org/2001/XMLSchema#" 
xmlns:foaf="http://xmlns.com/foaf/0.1/" 
xmlns:cc="http://creativecommons.org/ns#">

Ici, foaf nous servirait à encoder des informations relatives à une personne ou un objet décrit par les métadonnées, cc nous permettrait de signaler quelle licence creative commons s’appliquerait à ce contenu. Après avoir déclaré des les vocabulaires documentaires que nous allons utiliser, nous allons ajouter la structure RDFa au travers de balises <meta> dans l’entête <head> de la page HTML.

Dans un premier temps, à l’aide d’une balise <link>, nous allons définir l’objet numérique auquel les informations encodées en RDF seront rattachées :

<link rel="dc:identifier" href="http://monblog.com/monbillet.html" />

Cette balise définie donc un « conteneur » pour les informations que nous allons indiquer à l’aide des balises <meta>. Ce conteneur est identifié par une URI qui se trouve être là une URL, c’est à dire l’adresse de la page dans le web.

Maintenant, nous enchainons les balises <meta> qui définissent donc un ensemble de métadonnées, c’est à dire dans notre cas, des informations descriptives de la page web :

<meta property="dc:title" content="Le titre de mon billet" />
<meta property="dc:creator" content="Stéphane Pouyllau" />
<meta property="dcterms:created" content="2011-01-27" /> 
<meta property="dcterms:abstract" content="Un résumé descriptif du contenu de ma page" xml:lang="fr" /> 
<meta property="dc:subject" content="mot-clé 3" /> 
<meta property="dc:subject" content="mot-clé 2" /> 
<meta property="dc:type" content="billet" />
<meta property="dc:format" content="text/html" />
<meta property="dc:relation" content="Un lien vers une page web complémentaire" />

Il s’agit là d’un exemple minimal : un billet de blog utilisant le Dublin Core simple et peu descriptif sur le plan documentaire. Suivant la nature du contenu de la page web, il sera bien sur possible d’être plus précis, plus fin et plus complet dans les informations encodées. Le DC Terms permettra avec :

<meta property="dcterms:bibliographicCitation" content="Mettre ici une référence bibliographique" />

de proposer une forme pour une référence bibliographique dans le cas d’une page web décrivant un ouvrage par exemple. Il serait possible de passer l’ensemble du texte d’une page web à l’aide du vocabulaire SIOC en utilisant la propriété sioc:content. Il est possible également de relier des pages web entre elles (pour définir un corpus d’auteurs par exemple) en utilisant dans le vocabulaire DC Terms la propriété dcterms:isPartOf.

Il s’agit là d’un court billet présentant une façon très simple d’implémenter des métadonnées descriptives utilisant le formalisme RDF via une implémentation directe dans le code HTML, ce que l’on appelle le RDFa (« a » pour « in attributes« ). Cette implémentation, même minimale, permet d’être indexé par Isidore par exemple et d’indiquer des informations qui seront utilisées pour une meilleure indexation des données et qui pourront être ré-exposées dans la base de données RDF de ce dernier. La plateforme hypotheses.org (éditée par Open Edition) utilise cette implémentation d’RDFa. Pour cela, il faut simplement construire un sitemap (carte des liens du site web) au format xml pointant toutes les adresses URL des pages contenant du RDFa et que l’on souhaite voir indexer par Isidore.

Stéphane.

ChronoSIDORE : explorons les données d’ISIDORE avec SPARQL #2

ChronoSIDORE n’est pas le nom d’une nouvelle espèce de dinosaures, c’est le nom d’une application web qui utilise les ressources d’Isidore. ChronoSIDORE est donc un petit « mashup » que j’ai programmé pendant mes congés d’été. L’idée est double, poursuivre l’exploration concrète des possibilités d’un outil comme Isidore et donner des idées à d’autres personnes, en particulier dans le monde des bibliothèques et de la documentation, pour développer d’autres mashups s’appuyant soit sur l’API d’Isidore soit sur son SPARQL endpoint.

Que propose-t-il ?

ChronoSIDORE, accessible sur www.stephanepouyllau.org/labs/isidore/chronosidore, propose une autre façon de « voir » les ressources d’Isidore ; différente des vues traditionnelles en « pages de résultats » comme cela est le cas dans les bases de données bibliographiques ou catalogues. Ce mashup propose une vision des ressources en « tableau de bord » : il s’agit de projeter sur une frise chronologique un ensemble de ressources issues d’une ou de plusieurs requêtes SPARQL. Ainsi, une vision plus globale est proposée permettant une représentation différente de la répartition des ressources : dans notre cas, une mise en lumière de l’évolution disciplinaire des ressources fondée sur la catégorisation automatique effectuée par Isidore. ChronoSIDORE offre la possibilité de « voir » l’évolution chronologique des tendances disciplinaires pour un ensemble fini de ressources documentaires définit dans Isidore ou « source » : il peut s’agir des publications d’un laboratoire (à la condition qu’il possède une collection dans HALSHS), des articles d’une revue, des notices d’une base de données, des billets d’un carnet de recherche (voir la liste des sources dans l’annuaire d’Isidore). ChronoSIDORE propose deux types de requêtes SPARQL : l’une est orientée « sources » la seconde est orienté « auteurs » (permettant de projeter sur la frise les ressources d’un auteur). ChronoIsidore est un exemple de mashup possible, bien d’autres mashup sont possibles (autour des langues, des types de documents…).

Comment fonctionne-t-il ?

N’étant pas un développeur professionnel, j’ai fais avec mes connaissances en PHP, Xpath, SPARQL et Javascript pour développer. J’en profite pour remercier ici mes collègues Laurent Capelli, Shadia Kilouchi et Jean-Luc Minel qui m’ont aidé, en particulier sur SPARQL. Ainsi, je pense qu’une équipe de développeurs professionnels ferait beaucoup mieux, mais j’ai pensé aussi qu’il serait bien de montrer que l’ancien étudiant en histoire et archéologie du Moyen Age que je suis est capable d’exploiter avec un peu de PHP, les gisements de données enrichies proposés par Isidore, en espérant que cela donnera des idées à d’autres. J’en profite pour ré-affirmer ici le rôle et l’importance des ingénieurs en digital humanities dont les métiers sont multiples et qui interviennent à différents niveaux de technicité : Il faut des très grands spécialistes, érudits mais aussi des intermédiaires qui vont chercher la compétence à l’extérieur et l’adapte aux besoins SHS . On fait souvent le reproche aux ingénieurs du CNRS, surtout en digital humanities, de ré-inventer l’eau chaude, mais je pense qu’ils développent des outils, des méthodes qui sont adaptés à des publics présentant une multitude de rapports au numérique et différents niveaux d’appropriation et c’est très important. Il faut parfois avoir un outil imparfait, ou un démonstrateur fonctionnel pour offrir un service qui permettra à certains de profiter d’outils communs, fondés sur des standards ouverts et bien documentés et de « sauter le pas », ensuite on peut toujours améliorer les fonctionnalités. Je préfère cela à deux extrêmes : passer cinq ans à faire un outil qui ne fonctionnera jamais et qui sera dépassé avant de sortir (car nous n’avons que trop rarement les moyens de faire vite et bien) et dire qu’au prétexte que cela existe en ligne, il ne faut rien, s’en contenter, faire avec, et ne rien tenter car on n’égalera jamais les autres. Il s’agit parfois de faire juste « un pas de plus » pour ouvrir des données aux autres et savoir que ce « pas » est maitrisé, accompagné par des collègues du monde académique peut être plus sécurisant que de plonger de suite dans  jungle des outils en lignes et des « consultants » (même si, comme je l’ai dit, cela peut être nécessaire). J’aime bien l’idée que ChronoSIDORE donnera peut-être des idées à d’autres, nous en reparlerons au THATCamp Paris 2012 en septembre.

ChonoSIDORE réalise en fait plusieurs tâches :

  • Il interroge le triple store RDF d’Isidore : il s’agit d’une base de données RDF qui contient l’ensemble des informations d’Isidore formalisées en RDF et proposées selon les principes du linked data.
  • Il utilise pour cela le langage normalisé et international SPARQL (W3C) qui permet d’interroger les triplets RDF.
  • Il assemble les informations reçues du triple store sous la forme d’un flux de réponse Xml lisible avec l’application timeline créé dans le cadre du projet Simile du MIT (plutôt que refaire un système propre, j’ai préféré utiliser cet outil, même si je le trouve quelque peu rigide, il existe aussi d’autres systèmes : par exemple Timeline JS mais quelque peu différent).

Quelques limites

Il s’agit d’une version bêta, en fait un démonstrateur, donc il présente des limites. Deux sont à signaler :

  • Isidore catégorise automatiquement via un corpus de référence (HALSHS) et à l’aide de signatures sémantiques : cela peut donc générer des erreurs de catégorisation. Pour aller plus loin, voir les principes de catégorisation dans Isidore avec la vidéo de présentation des systèmes d’Isidore par Fabrice Lacroix, président d’Antidot, lors de l’université d’hiver du TGE Adonis à Valpré en décembre 2010 (ouverture d’Isidore).
  • Isidore ne catégorise pas toute les ressources qu’il moissonne : cela dépend de la richesse sémantique des métadonnées : plus les métadonnées moissonnée seront riches (description, résumé, mots-clés) plus la catégorisation proposée par Isidore sera pertinente et donc utilisable dans ChronoSIDORE. Donc toutes les ressources ne « montent » pas dans la frise chronologie.

Je vous invite donc à utiliser ChronoSIDORE, à le tester, à le faire « craquer » et si vous le souhaitez vous pouvez laisser un commentaire, des idées, des critiques…

Stéphane.

Page 1 sur 15

Fièrement propulsé par WordPress & Thème par Anders Norén