Les « vidéos pédago de pouyllau » – épisode 1 : Hypotheses.org et MédiHAL
Bonjour,
Il y a longtemps que je voulais faire une petite vidéo d’écran pour montrer comment « embarquer » – c’est le terme consacré – une photographique numérique déposée dans MédiHAL (réalisée par le centre pour la communication scientifique directe) dans une plateforme d’édition électronique telle que hypotheses.org (réalisée par le centre pour l’édition électronique ouverte). Comme, je suis en congés, j’ai pris le temps de la faire hier soir. Elle inaugure une nouvelle série de billet de ce blog, les « vidéos pédagogiques de pouyllau » qui auront vocation de montrer qu’il est possible d’articuler les plateformes web entre elles afin de proposer des contenus, articles, des données riches, etc en exploitant les possibilités de partage, API, etc. de ces dernières. Cela dit, je signale d’ailleurs qu’il existe un carnet de recherche sur hypotheses.org qui regroupe des conseils d’utilisation, annonces, autour de la plateforme hypotheses : c’est la la maison des carnets. Vous y trouverez une vidéo similaire présentant comment « embarquer » des données venant d’Archive.org, Youtube, etc. MédiHAL, archive ouverte publique, archivée au CINES, présente l’intérêt d’être une plateforme ouverte, proposant plusieurs services de valorisation des fonds photographiques qui y sont déposés : les collections de MédiHAL en particulier.
Sur cela, je vous laisse visionner le tutoriel :
A bientôt pour une prochaine vidéo.
Stéphane.
Les humanités numériques sont-elles dans le monde industriel ?
A lire les comptes-rendus des différentes journées sur les humanités numériques qui ont lieu ce printemps, je me demande s’il n’y a pas un lien de plus en plus fort entre humanités numériques et le monde industriel. En effet, le monde de l’industrie créé des outils mais surtout y réfléchit et les fait évoluer à la recherche d’une meilleure précision, d’une meilleure performance. Le besoin d’introduire, lors du déroulement d’un projet se réclamant des humanités numériques, une réflexion épistémologique, voir sociologique, me fait penser que le temps du « c’est de la technique, de l’informatique donc ce n’est pas de la science » est peut-être entrain de passer derrière nous. Les humanités numériques se peuplent de séminaires épistémologiques ouvrant une nouvelle dimension pour ce mouvement. Paradoxalement, une partie d’entre elles pourrait être condamnées « à disparaitre ». Le volet le plus technique, l’adaptation d’outils à un besoin par exemple, pourrait être transformé par la mutation permanente des méthodes et par l’appropriation/démocratisation de savoir-faire dit « technique » par un grand nombre d’acteurs. Un peu comme pour les ouvriers de chez Renault quand l’automation introduite par Pierre Bézier s’est développée. Évolution naturelle ? Les humanités numérique sont elles simplement les sciences humaines et sociales dans un monde numérique ? Donc, nous sommes au moment ou la recherche en SHS se fait avec des outils numériques dans un monde « devenu » lui aussi numérique. Le monde industriel – je pense à l’aviation par exemple – créée ses outils, ses machines-outils, réfléchit sur ces outils, améliore sans cesse ses chaines de production : c’est à dire les liaisons entre les briques-outils qui les composent. Il reste des savoir-faire à relier en particulier sur l’édition-documentation-archivage, il reste des pratiques à changer : séparation données/outils de traitement (dans une perspective d’archivage des corpus de données) ou encore il reste à ré-introduire l’explicitation systématique des méthodes, choix effectués et ne plus parler vaguement par exemple autour de la notion de métadonnées. Ce « parallèle » que je me permet de faire entre humanités numériques et industrie est surtout là pour affirmer qu’elles sont avant tout l’utilisation de techniques dans un processus de recherche, en fait de l’ingénierie (documentaire en particulier), comme Got me le rappelait il y a quelques temps. Ainsi, il ne faudrait pas que soit exclu du mouvement des humanités numériques, des acteurs qui n’incorporeraient pas dans leurs projets cette dimension épistémologique.
Stéphane.
ChronoSIDORE : explorons les données d’ISIDORE avec SPARQL #2
ChronoSIDORE n’est pas le nom d’une nouvelle espèce de dinosaures, c’est le nom d’une application web qui utilise les ressources d’Isidore. ChronoSIDORE est donc un petit « mashup » que j’ai programmé pendant mes congés d’été. L’idée est double, poursuivre l’exploration concrète des possibilités d’un outil comme Isidore et donner des idées à d’autres personnes, en particulier dans le monde des bibliothèques et de la documentation, pour développer d’autres mashups s’appuyant soit sur l’API d’Isidore soit sur son SPARQL endpoint.
Que propose-t-il ?
ChronoSIDORE, accessible sur www.stephanepouyllau.org/labs/isidore/chronosidore, propose une autre façon de « voir » les ressources d’Isidore ; différente des vues traditionnelles en « pages de résultats » comme cela est le cas dans les bases de données bibliographiques ou catalogues. Ce mashup propose une vision des ressources en « tableau de bord » : il s’agit de projeter sur une frise chronologique un ensemble de ressources issues d’une ou de plusieurs requêtes SPARQL. Ainsi, une vision plus globale est proposée permettant une représentation différente de la répartition des ressources : dans notre cas, une mise en lumière de l’évolution disciplinaire des ressources fondée sur la catégorisation automatique effectuée par Isidore. ChronoSIDORE offre la possibilité de « voir » l’évolution chronologique des tendances disciplinaires pour un ensemble fini de ressources documentaires définit dans Isidore ou « source » : il peut s’agir des publications d’un laboratoire (à la condition qu’il possède une collection dans HALSHS), des articles d’une revue, des notices d’une base de données, des billets d’un carnet de recherche (voir la liste des sources dans l’annuaire d’Isidore). ChronoSIDORE propose deux types de requêtes SPARQL : l’une est orientée « sources » la seconde est orienté « auteurs » (permettant de projeter sur la frise les ressources d’un auteur). ChronoIsidore est un exemple de mashup possible, bien d’autres mashup sont possibles (autour des langues, des types de documents…).
Comment fonctionne-t-il ?
N’étant pas un développeur professionnel, j’ai fais avec mes connaissances en PHP, Xpath, SPARQL et Javascript pour développer. J’en profite pour remercier ici mes collègues Laurent Capelli, Shadia Kilouchi et Jean-Luc Minel qui m’ont aidé, en particulier sur SPARQL. Ainsi, je pense qu’une équipe de développeurs professionnels ferait beaucoup mieux, mais j’ai pensé aussi qu’il serait bien de montrer que l’ancien étudiant en histoire et archéologie du Moyen Age que je suis est capable d’exploiter avec un peu de PHP, les gisements de données enrichies proposés par Isidore, en espérant que cela donnera des idées à d’autres. J’en profite pour ré-affirmer ici le rôle et l’importance des ingénieurs en digital humanities dont les métiers sont multiples et qui interviennent à différents niveaux de technicité : Il faut des très grands spécialistes, érudits mais aussi des intermédiaires qui vont chercher la compétence à l’extérieur et l’adapte aux besoins SHS . On fait souvent le reproche aux ingénieurs du CNRS, surtout en digital humanities, de ré-inventer l’eau chaude, mais je pense qu’ils développent des outils, des méthodes qui sont adaptés à des publics présentant une multitude de rapports au numérique et différents niveaux d’appropriation et c’est très important. Il faut parfois avoir un outil imparfait, ou un démonstrateur fonctionnel pour offrir un service qui permettra à certains de profiter d’outils communs, fondés sur des standards ouverts et bien documentés et de « sauter le pas », ensuite on peut toujours améliorer les fonctionnalités. Je préfère cela à deux extrêmes : passer cinq ans à faire un outil qui ne fonctionnera jamais et qui sera dépassé avant de sortir (car nous n’avons que trop rarement les moyens de faire vite et bien) et dire qu’au prétexte que cela existe en ligne, il ne faut rien, s’en contenter, faire avec, et ne rien tenter car on n’égalera jamais les autres. Il s’agit parfois de faire juste « un pas de plus » pour ouvrir des données aux autres et savoir que ce « pas » est maitrisé, accompagné par des collègues du monde académique peut être plus sécurisant que de plonger de suite dans jungle des outils en lignes et des « consultants » (même si, comme je l’ai dit, cela peut être nécessaire). J’aime bien l’idée que ChronoSIDORE donnera peut-être des idées à d’autres, nous en reparlerons au THATCamp Paris 2012 en septembre.
ChonoSIDORE réalise en fait plusieurs tâches :
- Il interroge le triple store RDF d’Isidore : il s’agit d’une base de données RDF qui contient l’ensemble des informations d’Isidore formalisées en RDF et proposées selon les principes du linked data.
- Il utilise pour cela le langage normalisé et international SPARQL (W3C) qui permet d’interroger les triplets RDF.
- Il assemble les informations reçues du triple store sous la forme d’un flux de réponse Xml lisible avec l’application timeline créé dans le cadre du projet Simile du MIT (plutôt que refaire un système propre, j’ai préféré utiliser cet outil, même si je le trouve quelque peu rigide, il existe aussi d’autres systèmes : par exemple Timeline JS mais quelque peu différent).
Quelques limites
Il s’agit d’une version bêta, en fait un démonstrateur, donc il présente des limites. Deux sont à signaler :
- Isidore catégorise automatiquement via un corpus de référence (HALSHS) et à l’aide de signatures sémantiques : cela peut donc générer des erreurs de catégorisation. Pour aller plus loin, voir les principes de catégorisation dans Isidore avec la vidéo de présentation des systèmes d’Isidore par Fabrice Lacroix, président d’Antidot, lors de l’université d’hiver du TGE Adonis à Valpré en décembre 2010 (ouverture d’Isidore).
- Isidore ne catégorise pas toute les ressources qu’il moissonne : cela dépend de la richesse sémantique des métadonnées : plus les métadonnées moissonnée seront riches (description, résumé, mots-clés) plus la catégorisation proposée par Isidore sera pertinente et donc utilisable dans ChronoSIDORE. Donc toutes les ressources ne « montent » pas dans la frise chronologie.
Je vous invite donc à utiliser ChronoSIDORE, à le tester, à le faire « craquer » et si vous le souhaitez vous pouvez laisser un commentaire, des idées, des critiques…
Stéphane.
Lectures pour un été pluvieux ?
Je signale le très bon billet sur l’interopérabilité de Marie-Anne Chabin dans son blog (merci d’ailleurs à Silvère Mercier pour le signalement). Je me suis permis un petit et court commentaire à ce billet car il fait écho en partie aux limites de l’interopérabilité quand elle devient plus une mode qu’un besoin réel. C’est particulièrement vrai dans le monde de l’interopérabilité des métadonnées documentaires ou le protocole OAI-PMH est largement utilisé (ce qui est bien) mais parfois mal maitrisé : Il est courant de tomber sur des entrepôts OAI-PMH qui tentent d’échanger des métadonnées qui, non-normalisées par exemple, ne trouveront pas d’utilisateurs « en face » pour les exploiter réellement.
En écho complémentaire, je signale la journée d’étude « De l’OAI au web de données : Bibliothèques et publications sur Internet » le 12 octobre 2012 qui se propose d’explorer le lien entre interopérabilité et utilisation du web comme lieu de publication même des informations structurées. Pour finir, je me permet de vous encourager de regarder et d’écouter de temps en temps l’intervention d’Emmanuelle Bermes sur le web de données qui éclaire toutes ces notions de façon magistrale.
A quoi sert la dame du CDI ?
Dans le débat qui anime « l’initiative » : comment j’ai pourri le web ; je signale un billet intéressant sur Métro-boulot-catho. Je ne partage pas la conclusion qui consiste à dire : « on ne profite vraiment du numérique que quand on a formé son esprit sans lui » car je pense que ce n’est pas le support qui est en cause, mais la façon dont « le net » est envisagé à l’école et dans l’enseignement. Nous sommes là dans cas un caricatural il me semble mais posant la question. Ainsi je trouve très pertinente la remarque dans le billet de Métro-boulot-catho :
« Alors oui, il faut une vraie formation à l’information. Mais à moins de créer une discipline documentation, ce qui n’est pas à l’ordre du jour5, cette formation ne peut se faire que dans le cadre des autres disciplines. Ce collègue, au lieu de se donner tout ce mal pour piéger ses élèves, n’aurait-il pas mieux fait d’aller rencontrer son collègue profdoc pour monter une séquence digne de ce nom ? D’emmener ses élèves deux ou trois heures au CDI, pour les faire réfléchir par eux-mêmes aux raisons qui les conduisent à utiliser Internet sans discernement ? Initier à l’information, c’est ce pour quoi les profdocs choisissent ce métier. Ce collègue va-t-il reconnaître que nous avons des propositions à lui faire ? »
Les métiers de l’information, la documentation en particulier, ont effectivement des propositions à faire et d’ailleurs pas que pour les profs et leurs élèves… je pense aussi aux chercheurs, aux informaticiens, etc. dans mon domaine. Comme je l’ai souvent dit, il faut faire au moins 50% du chemin vers la question de l’autre.
Stéphane.
Interopérabilité autour de l’édition électronique de la correspondance d’Eugène Delacroix
Le Centre André Chastel (Université de Paris-Sorbonne, Paris IV, CNRS, Ministère de la Culture et de la Communication) propose une édition électronique de la correspondance d’Eugène Delacroix (1798-1863). Accessible sur le site www.correspondance-delacroix.fr, le site est très clair et fonctionnel : il y a un moteur de recherche, un index des noms de personnes, des liens offrent la possibilité de naviguer dans le corpus. La visualisation des lettres est aussi très intéressante : fac-similés (flash, mais visualisation de l’image jpg sous ipad par exemple), transcriptions, notices biographiques, annotations, etc. Le projet semble très bien mené et rentre dans le mouvement des éditions électroniques de correspondances (littéraires, scientifiques, etc.). Ce projet a été financé par l’Agence nationale de la recherche en 2006 (appel Corpus).
On peut cependant regretter d’avoir à faire à un site « clos ».
Je m’explique : les éditeurs ont conçu un site très riche et bien pensé, mais ils n’ont pas mis en place de politique de flux de diffusion (RSS, Atom) permettant par exemple de suivre, depuis un outil de veille, les mises à jour des annotations afin de suivre les débats des spécialistes. C’est dommage car le site se veut vivant : « …grâce à la mise en ligne, [les transcriptions et annotations] seront toujours susceptibles de modifications et d’ajouts » est-il précisé dans la présentation du projet. Quel est le système de transcriptions qui a été utilisé ? Text Encoding Initiative ? Nous ne le savons pas : c’est dommage car cela aurait marqué un peu la préoccupation des éditeurs en matière d’archivage des transcriptions (même si TEI n’est pas parfait, c’est déjà au moins du XML). Autre manque : alors qu’un effort a été visiblement fait pour rendre citable les url des lettres (indépendance des liens vis à vis du système de publication), il n’est pas fait état d’un hypothétique entrepôt OAI-PMH permettant de moissonner les métadonnées des lettres de Delacroix afin de les diffuser dans les portail tel OAIster, Gallica ou ISIDORE, comme c’est le cas pour les correspondances d’André-Marie Ampère ou encore Buffon. Est-ce une volonté des éditeurs ? un oubli par manque d’information (OAI-PMH reste tout de même assez mal connu) ? Je ne sais pas. Mais, je pense qu’il est toujours dommage de ne pas disséminer les contenus d’une édition électronique d’une œuvre scientifique, littéraire ou artistique vers des portails thématiques ou disciplinaires afin de communiquer plus largement les sources de la recherche et de les rapprocher d’autres ressources. Globalement, le corpus est certes utilisable mais est-il réutilisable ? Je l’espère. En tout cas, il me tarde de voir signaler les échanges épistolaires d’Eugène Delacroix dans ISIDORE (qui contient déjà 256 ressources sur ce dernier).
Bielefeld Academic Search Engine
Le portail BASE (Bielefeld Academic Search Engine) est un aggrégateur OAI-PMH moissonnant 1890 entrepôts OAI dans le monde (au 2 juillet 2011) et donnant accès à 28.911.265 notices. Utilisant Solr et le système d’opac VuFind, BASE est accessible via un site web très clair, rapide et fonctionnel. Sans proposer, comme dans ISIDORE, un enrichissement des métadonnées à l’aide de référentiels, ni l’indexation du texte intégral des données jointes aux notices OAI, BASE est un outil très performant qui fait partie des fournisseurs de services. « Fournisseurs de services »… cette expression, un peu obscure je trouve, désigne le plus souvent les portails documentaires moissonnant des métadonnées selon le protocole OAI-PMH. Après OAIster (aujourd’hui dissout dans l’offre d’OCLC), Scientificcommons.org, BASE a ses adeptes. En tous cas, ce projet conforte certains choix que nous avons fait dans ISIDORE : la mise en place d’un annuaire des entrepôts moissonnés (« A data resources inventory provides transparency in the searches« , voir dans « About BASE« ) ou encore la notion de web profond ou invisible « Discloses web resources of the « Deep Web », which are ignored by commercial search engines or get lost in the vast quantity of hits.« . Bien sur, la notion de facettes, mais calculées uniquement sur les contenus des métadonnées moissonnées : « Refine your search result » options (authors, subject headings, year, resources and language).
Limité à OAI-PMH, et donc à des métadonnées proposées sous la forme d’atomes sans relief, ce type de portail, comme ISIDORE d’ailleurs, devra évoluer car il est toujours un peu frustrant de ne pas naviguer dans des données en « relief ». ISIDORE, avec son SPARQL end point RDF contenant plus de 40 millions de triplets RDF, va déjà un peu plus loin, mais il nous faut imaginer des nouveaux systèmes de navigation et de signalement pour ces informations structurées en RDF.
Stéphane.
