sp.Blog

le blog de Stéphane Pouyllau

Catégorie : digital humanities (Page 1 sur 7)

Louise

Je viens d’apprendre le décès brutal de Louise Merzeau. Elle m’avait invité à participer au séminaire Ecrilecture en 2012 et je me souviens de cette discussion si forte et riche qui s’y était développé. Grace à Louise, j’ai rencontre Marcello Vitali-Rosati, Vincent Larrivière, etc. mes contacts du Québec avec qui je travaille aujourd’hui. J’ai croisé plusieurs fois Louise Merzeau dans des réunions, ateliers, et j’avais été marqué par la richesse de ses analyses, toujours très précises, appelant à réfléchir. Elle m’avait souvent questionné sur les « traces » dans le cadre du projet ISIDORE, et particulièrement lors du séminaire Ecrilecture. Ses questions étaient si constructives. Je pense à ses proches, à ses étudiants. Louise va nous manquer.

MédiHAL, 5 ans et 24000 photos et images scientifiques plus loin…

Lancé en 2010 par le Centre pour la communication scientifique directe du CNRS et avec l’aide du TGE Adonis (devenu depuis Huma-Num) et du CN2SV, MédiHAL est une archive ouverte de photographies, d’images, et maintenant de vidéo qui compte plus de 24000 entrées venant principalement du domaine des SHS (mais pas que !). Ayant participé à sa création avec S. Kilouchi, D. Charnay et L. Capelli, je suis très content du chemin parcouru par ce projet, modeste au départ, qui fut réalisé rapidement (quelques mois) et finalement avec assez peu de financement (uniquement les salaires des acteurs concernés).

MédiHAL

MédiHAL, vue en 2016

Après 5 ans de travail autour de MédiHAL, principalement dans l’animation/promotion de cet objet et dans la validation des dépôts,  et parce que mes occupations actuelles au sein d’Huma-Num sont très intenses, j’ai estimé qu’il était temps de passer la main à d’autres. C’est désormais, le CCSD qui assurera la validation des dépôts dans MédiHAL ainsi que la définition des évolutions futures de la plateforme. Beaucoup de personnes ont contribué à améliorer MédiHAL depuis le début et j’espère que cela continuera car si l’outil se veut simple, il y aura toujours des choses nouvelles à proposer autour des archives ouvertes de données (en particulier en lien avec les publications). MédiHAL contient des images et des photographie qui ont aujourd’hui une valeur scientifique et patrimoniale particulière qui raisonnent avec l’actualité, en particulier les séries de photographies du temple de Bêl à Palmyre (Syrie) issues des collections de l’Institut Français Du Proche-Orient (ifpo).

Palmyre, Temple de Bel

Palmyre, Temple de Bel

J’ai été très heureux de participer à ce projet et je lui souhaite plein de bonnes choses pour le futur ! Et via ISIDORE, qui moissonne MédiHAL et HAL, je regarderai avec bienveillance grandir le corpus de MédiHAL !

Stéphane.

Parution « Le temps des humanités digitales »

Bonjour,
Je signale la parution chez Fyp éditions de l’ouvrage dirigé par Olivier Le Deuff et dans lequel j’ai contribué (un petit peu) : « Le temps des humanités digitales, la mutation des sciences humaines et sociales ». Ce livre collectif donne des pistes pour découvrir et s’approprier le mouvement des humanités « digitalo-numériques ». Au fil des chapitres, il est aussi clair que l’on sent bien que le « poids » du Web est de plus en plus important pour le secteur de la recherche en SHS : les outils de traitements, documentations et visualisations passent tous par le Web (et donc par le protocole HTTP). Cela renforce l’importance des enjeux de la bonne compréhension de ce dernier (ex. : le Web et Internet, c’est différent !) en particulier à l’heure du web des données. Bonne lecture !

Stéphane.

Le temps des humanités digitales

Résumé éditeur : « Les humanités digitales se situent à la croisée de l’informatique, des arts, des lettres et des sciences humaines et sociales. Elles s’enracinent dans un mouvement en faveur de la diffusion, du partage et de la valorisation du savoir. Avec leur apparition, les universités, les lieux de savoir et les chercheurs vivent une transformation importante de leur mode de travail. Cela entraîne une évolution des compétences et des pratiques. Cet ouvrage explique les origines des humanités digitales et ses évolutions. Il décrit leurs réussites, leurs potentialités, leur rapport à la technique et comment elles transforment les sciences humaines, la recherche et l’enseignement. Il examine les enjeux des nouveaux formats, modes de lecture, et des outils de communication et de visualisation. Ce livre permet d’aller plus loin dans vos pratiques et vos réflexions. Le temps des humanités digitales est venu ! »

Sous la direction d’Olivier Le Deuff. Avec les contributions de Milad Doueihi, Jean-Christophe Plantin, Olivier Le Deuff, Frédéric Clavert, Frédéric Kaplan, Mélanie Fournier, Nicolas Thély, Marc-Antoine Nuessli, René Audet, Stéphane Pouyllau, Frank Cormerais, Sylvain Machefert.

Structurer les humanités numériques

Alors qu’au THATCamp de St Malo une partie de la « non-communauté » des humanités numériques structure une association francophone, la professionnalisation de ce mouvement s’accélère. Lors du dîné d’hier soir la nécessité d’une revue augmentée est apparue évidente (en tous cas pour moi). Une revue augmentée est une revue où il est possible de publier dans les articles, ou à coté des articles, des données, des programmes, des codes, qui permettent aux lecteurs de suivre le cheminement méthodologie en ayant les moyens de reproduire les démonstration, du moins de tester des choses. Pour illustrer cela, je vous invite à consulté la revue IPOL Journal que j’ai récemment découverte lors des journées Frédoc2013 d’Aussois. Je trouve cela très stimulant ! D’autant que la discussion d’hier soir a jeté les bases de la structure de la revue qui pourrait être éditée par l’association et la question de la place d’articles n’ayant pas une écriture académique a été abordée. Rubriques, cahiers, n° spéciaux, beaucoup de choses sont possibles je pense, et j’y contribuerai avec joie.

Les THATCamps sont des moments assez uniques ou les personnes s’agrègent le temps d’un « week-end » ou plus pour partager leur vision des humanités numériques/digitales. Il y a déjà des comptes-rendus en ligne, dont celui de Camille Bosqué, doctorante à Rennes2 travaillant sur les FabLab, qui a su très bien saisir par le dessin, un moment de l’atelier définissant la constituante de l’association.

Stéphane.

Les humanités numériques sont-elles dans le monde industriel ?

Pierre BezierA lire les comptes-rendus des différentes journées sur les humanités numériques qui ont lieu ce printemps, je me demande s’il n’y a pas un lien de plus en plus fort entre humanités numériques et le monde industriel. En effet, le monde de l’industrie créé des outils mais surtout y réfléchit et les fait évoluer à la recherche d’une meilleure précision, d’une meilleure performance. Le besoin d’introduire, lors du déroulement d’un projet se réclamant des humanités numériques, une réflexion épistémologique, voir sociologique, me fait penser que le temps du « c’est de la technique, de l’informatique donc ce n’est pas de la science » est peut-être entrain de passer derrière nous. Les humanités numériques se peuplent de séminaires épistémologiques ouvrant une nouvelle dimension pour ce mouvement.  Paradoxalement, une partie d’entre elles pourrait être condamnées « à disparaitre ». Le volet le plus technique, l’adaptation d’outils à un besoin par exemple, pourrait être transformé par la mutation permanente des méthodes et par l’appropriation/démocratisation de savoir-faire dit « technique » par un grand nombre d’acteurs. Un peu comme pour les ouvriers de chez Renault quand l’automation introduite par Pierre Bézier s’est développée. Évolution naturelle ? Les humanités numériques sont elles simplement les sciences humaines et sociales dans un monde numérique ? Donc, nous sommes au moment ou la recherche en SHS se fait avec des outils numériques dans un monde « devenu » lui aussi numérique. Le monde industriel – je pense à l’aviation par exemple – créée ses outils, ses machines-outils, réfléchit sur ces outils, améliore sans cesse ses chaines de production : c’est à dire les liaisons entre les briques-outils qui les composent. Il reste des savoir-faire à relier en particulier sur l’édition-documentation-archivage, il reste des pratiques à changer : séparation données/outils de traitement (dans une perspective d’archivage des corpus de données) ou encore il reste à ré-introduire l’explicitation systématique des méthodes, choix effectués et ne plus parler vaguement par exemple autour de la notion de métadonnées. Ce « parallèle » que je me permet de faire entre humanités numériques et industrie est surtout là pour affirmer qu’elles sont avant tout l’utilisation de techniques dans un processus de recherche, en fait de l’ingénierie (documentaire en particulier), comme Got me le rappelait il y a quelques temps. Ainsi, il ne faudrait pas que soit exclu du mouvement des humanités numériques, des acteurs qui n’incorporeraient pas dans leurs projets cette dimension épistémologique.

Stéphane.

Exprimer simplement les métadonnées d’une page web avec RDFa

Comment exprimer des métadonnées d’une page web très simplement en utilisant la syntaxe RDFa ? Prenons exemple un billet de blog « propulsé » par WordPress. S’il existe des plugins pour cela, l’obsolescence de ces derniers peut rendre difficile leur maintien dans le temps. Autre solution, implémenter RDFa dans le code HTML du thème WordPress que l’on aura choisi. Pour ce que cela soit facile et « gérable » dans le temps, le plus simple et d’utiliser l’entête HTML <head> afin d’y placer des balises <meta> qui contiendront les métadonnées. Exprimer des métadonnées selon le modèle RDF via la syntaxe RDFa permet à des machines (principalement des moteurs de recherche) de mieux traiter l’information car elle devient plus explicite : pour une machine, une chaine de caractère peut être un titre ou un résumé, si vous ne lui dites pas que c’est un titre ou que c’est un résumé elle ne le devinera pas. A minima, il est donc possible d’utiliser les balises <meta> pour définir une structure RDF offrant la possibilité de structurer les métadonnées minimales par exemple avec le vocabulaire documentaire Dublin Core Element Set (plus connu en France sous appellation « Dublin Core simple »).

Comment faire ?

En premier, il faut indiquer dans le DOCTYPE de la page web, qu’elle va contenir des informations qui vont utiliser le modèle RDF, ainsi, le DOCTYPE sera :

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">

Dans la balise <html>, nous allons indiquer les adresses des vocabulaires documentaires – par l’intermédiaire de namespace XML – qui vont nous servir à typer les informations, dans notre exemple, nous allons utiliser le Dublin Core simple et le Dublin Core Terms (DC Terms) :

<html xmlns="http://www.w3.org/1999/xhtml" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" 
xmlns:xsd="http://www.w3.org/2001/XMLSchema#" 
xmlns:dc="http://purl.org/dc/elements/1.1/" 
xmlns:dcterms="http://purl.org/dc/terms/">

Il serait possible, pour encoder plus d’information, d’utiliser plus de vocabulaires documentaires :

<html xmlns="http://www.w3.org/1999/xhtml" 
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
xmlns:dc="http://purl.org/dc/elements/1.1/" 
xmlns:dcterms="http://purl.org/dc/terms/" 
xmlns:skos="http://www.w3.org/2004/02/skos/core#" 
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" 
xmlns:xsd="http://www.w3.org/2001/XMLSchema#" 
xmlns:foaf="http://xmlns.com/foaf/0.1/" 
xmlns:cc="http://creativecommons.org/ns#">

Ici, foaf nous servirait à encoder des informations relatives à une personne ou un objet décrit par les métadonnées, cc nous permettrait de signaler quelle licence creative commons s’appliquerait à ce contenu. Après avoir déclaré des les vocabulaires documentaires que nous allons utiliser, nous allons ajouter la structure RDFa au travers de balises <meta> dans l’entête <head> de la page HTML.

Dans un premier temps, à l’aide d’une balise <link>, nous allons définir l’objet numérique auquel les informations encodées en RDF seront rattachées :

<link rel="dc:identifier" href="http://monblog.com/monbillet.html" />

Cette balise définie donc un « conteneur » pour les informations que nous allons indiquer à l’aide des balises <meta>. Ce conteneur est identifié par une URI qui se trouve être là une URL, c’est à dire l’adresse de la page dans le web.

Maintenant, nous enchainons les balises <meta> qui définissent donc un ensemble de métadonnées, c’est à dire dans notre cas, des informations descriptives de la page web :

<meta property="dc:title" content="Le titre de mon billet" />
<meta property="dc:creator" content="Stéphane Pouyllau" />
<meta property="dcterms:created" content="2011-01-27" /> 
<meta property="dcterms:abstract" content="Un résumé descriptif du contenu de ma page" xml:lang="fr" /> 
<meta property="dc:subject" content="mot-clé 3" /> 
<meta property="dc:subject" content="mot-clé 2" /> 
<meta property="dc:type" content="billet" />
<meta property="dc:format" content="text/html" />
<meta property="dc:relation" content="Un lien vers une page web complémentaire" />

Il s’agit là d’un exemple minimal : un billet de blog utilisant le Dublin Core simple et peu descriptif sur le plan documentaire. Suivant la nature du contenu de la page web, il sera bien sur possible d’être plus précis, plus fin et plus complet dans les informations encodées. Le DC Terms permettra avec :

<meta property="dcterms:bibliographicCitation" content="Mettre ici une référence bibliographique" />

de proposer une forme pour une référence bibliographique dans le cas d’une page web décrivant un ouvrage par exemple. Il serait possible de passer l’ensemble du texte d’une page web à l’aide du vocabulaire SIOC en utilisant la propriété sioc:content. Il est possible également de relier des pages web entre elles (pour définir un corpus d’auteurs par exemple) en utilisant dans le vocabulaire DC Terms la propriété dcterms:isPartOf.

Il s’agit là d’un court billet présentant une façon très simple d’implémenter des métadonnées descriptives utilisant le formalisme RDF via une implémentation directe dans le code HTML, ce que l’on appelle le RDFa (« a » pour « in attributes« ). Cette implémentation, même minimale, permet d’être indexé par Isidore par exemple et d’indiquer des informations qui seront utilisées pour une meilleure indexation des données et qui pourront être ré-exposées dans la base de données RDF de ce dernier. La plateforme hypotheses.org (éditée par Open Edition) utilise cette implémentation d’RDFa. Pour cela, il faut simplement construire un sitemap (carte des liens du site web) au format xml pointant toutes les adresses URL des pages contenant du RDFa et que l’on souhaite voir indexer par Isidore.

Stéphane.

ChronoSIDORE : explorons les données d’ISIDORE avec SPARQL #2

ChronoSIDORE n’est pas le nom d’une nouvelle espèce de dinosaures, c’est le nom d’une application web qui utilise les ressources d’Isidore. ChronoSIDORE est donc un petit « mashup » que j’ai programmé pendant mes congés d’été. L’idée est double, poursuivre l’exploration concrète des possibilités d’un outil comme Isidore et donner des idées à d’autres personnes, en particulier dans le monde des bibliothèques et de la documentation, pour développer d’autres mashups s’appuyant soit sur l’API d’Isidore soit sur son SPARQL endpoint.

Que propose-t-il ?

ChronoSIDORE, accessible sur www.stephanepouyllau.org/labs/isidore/chronosidore, propose une autre façon de « voir » les ressources d’Isidore ; différente des vues traditionnelles en « pages de résultats » comme cela est le cas dans les bases de données bibliographiques ou catalogues. Ce mashup propose une vision des ressources en « tableau de bord » : il s’agit de projeter sur une frise chronologique un ensemble de ressources issues d’une ou de plusieurs requêtes SPARQL. Ainsi, une vision plus globale est proposée permettant une représentation différente de la répartition des ressources : dans notre cas, une mise en lumière de l’évolution disciplinaire des ressources fondée sur la catégorisation automatique effectuée par Isidore. ChronoSIDORE offre la possibilité de « voir » l’évolution chronologique des tendances disciplinaires pour un ensemble fini de ressources documentaires définit dans Isidore ou « source » : il peut s’agir des publications d’un laboratoire (à la condition qu’il possède une collection dans HALSHS), des articles d’une revue, des notices d’une base de données, des billets d’un carnet de recherche (voir la liste des sources dans l’annuaire d’Isidore). ChronoSIDORE propose deux types de requêtes SPARQL : l’une est orientée « sources » la seconde est orienté « auteurs » (permettant de projeter sur la frise les ressources d’un auteur). ChronoIsidore est un exemple de mashup possible, bien d’autres mashup sont possibles (autour des langues, des types de documents…).

Comment fonctionne-t-il ?

N’étant pas un développeur professionnel, j’ai fais avec mes connaissances en PHP, Xpath, SPARQL et Javascript pour développer. J’en profite pour remercier ici mes collègues Laurent Capelli, Shadia Kilouchi et Jean-Luc Minel qui m’ont aidé, en particulier sur SPARQL. Ainsi, je pense qu’une équipe de développeurs professionnels ferait beaucoup mieux, mais j’ai pensé aussi qu’il serait bien de montrer que l’ancien étudiant en histoire et archéologie du Moyen Age que je suis est capable d’exploiter avec un peu de PHP, les gisements de données enrichies proposés par Isidore, en espérant que cela donnera des idées à d’autres. J’en profite pour ré-affirmer ici le rôle et l’importance des ingénieurs en digital humanities dont les métiers sont multiples et qui interviennent à différents niveaux de technicité : Il faut des très grands spécialistes, érudits mais aussi des intermédiaires qui vont chercher la compétence à l’extérieur et l’adapte aux besoins SHS . On fait souvent le reproche aux ingénieurs du CNRS, surtout en digital humanities, de ré-inventer l’eau chaude, mais je pense qu’ils développent des outils, des méthodes qui sont adaptés à des publics présentant une multitude de rapports au numérique et différents niveaux d’appropriation et c’est très important. Il faut parfois avoir un outil imparfait, ou un démonstrateur fonctionnel pour offrir un service qui permettra à certains de profiter d’outils communs, fondés sur des standards ouverts et bien documentés et de « sauter le pas », ensuite on peut toujours améliorer les fonctionnalités. Je préfère cela à deux extrêmes : passer cinq ans à faire un outil qui ne fonctionnera jamais et qui sera dépassé avant de sortir (car nous n’avons que trop rarement les moyens de faire vite et bien) et dire qu’au prétexte que cela existe en ligne, il ne faut rien, s’en contenter, faire avec, et ne rien tenter car on n’égalera jamais les autres. Il s’agit parfois de faire juste « un pas de plus » pour ouvrir des données aux autres et savoir que ce « pas » est maitrisé, accompagné par des collègues du monde académique peut être plus sécurisant que de plonger de suite dans  jungle des outils en lignes et des « consultants » (même si, comme je l’ai dit, cela peut être nécessaire). J’aime bien l’idée que ChronoSIDORE donnera peut-être des idées à d’autres, nous en reparlerons au THATCamp Paris 2012 en septembre.

ChonoSIDORE réalise en fait plusieurs tâches :

  • Il interroge le triple store RDF d’Isidore : il s’agit d’une base de données RDF qui contient l’ensemble des informations d’Isidore formalisées en RDF et proposées selon les principes du linked data.
  • Il utilise pour cela le langage normalisé et international SPARQL (W3C) qui permet d’interroger les triplets RDF.
  • Il assemble les informations reçues du triple store sous la forme d’un flux de réponse Xml lisible avec l’application timeline créé dans le cadre du projet Simile du MIT (plutôt que refaire un système propre, j’ai préféré utiliser cet outil, même si je le trouve quelque peu rigide, il existe aussi d’autres systèmes : par exemple Timeline JS mais quelque peu différent).

Quelques limites

Il s’agit d’une version bêta, en fait un démonstrateur, donc il présente des limites. Deux sont à signaler :

  • Isidore catégorise automatiquement via un corpus de référence (HALSHS) et à l’aide de signatures sémantiques : cela peut donc générer des erreurs de catégorisation. Pour aller plus loin, voir les principes de catégorisation dans Isidore avec la vidéo de présentation des systèmes d’Isidore par Fabrice Lacroix, président d’Antidot, lors de l’université d’hiver du TGE Adonis à Valpré en décembre 2010 (ouverture d’Isidore).
  • Isidore ne catégorise pas toute les ressources qu’il moissonne : cela dépend de la richesse sémantique des métadonnées : plus les métadonnées moissonnée seront riches (description, résumé, mots-clés) plus la catégorisation proposée par Isidore sera pertinente et donc utilisable dans ChronoSIDORE. Donc toutes les ressources ne « montent » pas dans la frise chronologie.

Je vous invite donc à utiliser ChronoSIDORE, à le tester, à le faire « craquer » et si vous le souhaitez vous pouvez laisser un commentaire, des idées, des critiques…

Stéphane.

Lectures pour un été pluvieux ?

Je signale le très bon billet sur l’interopérabilité de Marie-Anne Chabin dans son blog (merci d’ailleurs à Silvère Mercier pour le signalement). Je me suis permis un petit et court commentaire à ce billet car il fait écho en partie aux limites de l’interopérabilité quand elle devient plus une mode qu’un besoin réel. C’est particulièrement vrai dans le monde de l’interopérabilité des métadonnées documentaires ou le protocole OAI-PMH est largement utilisé (ce qui est bien) mais parfois mal maitrisé : Il est courant de tomber sur des entrepôts OAI-PMH qui tentent d’échanger des métadonnées qui, non-normalisées par exemple, ne trouveront pas d’utilisateurs « en face » pour les exploiter réellement.

En écho complémentaire, je signale la journée d’étude « De l’OAI au web de données : Bibliothèques et publications sur Internet » le 12 octobre 2012 qui se propose d’explorer le lien entre interopérabilité et utilisation du web comme lieu de publication même des informations structurées. Pour finir, je me permet de vous encourager de regarder et d’écouter de temps en temps l’intervention d’Emmanuelle Bermes sur le web de données qui éclaire toutes ces notions de façon magistrale.

Les corpus au pays des modules

Dans un billet récent, Alexandre Moatti, faisait quelques remarques sur la bibliothèque numérique de l’Institut. Dans son texte, il fait référence à ICEberg, un logiciel que j’ai créé en 2002-2003 afin de proposer un outil de mise en ligne de corpus numériques. ICEberg a évolué avec le temps et il a été ré-écrit 3 fois depuis 2002.
C’est normal, les outils en ligne (les applications web) sont très vite obsolètes : les briques permettant de les construire (PHP, Python, Jquery, etc.) évoluent en permanence et contraignent donc les développeurs et webmasters à faire régulièrement des nouvelles moutures de leurs programmes. Depuis la généralisation des systèmes de gestion de contenu (CMS) de 2eme et 3eme génération se sont ajoutées aux couches basses (PHP, MySQL, version d’Apache ou d’IIS) une kyrielle de modules qui ont la fâcheuse tendance à ne plus être compatibles avec le noyau du CMS après parfois quelques semaines seulement.
Dans certains cas, des modules importants ont été incorporés dans le noyau ; mais pour beaucoup de fonctionnalités, le recours à de nouveaux modules répondant à des besoins toujours nouveaux (OAI-PMH, « zotero inside », galeries d’images, etc.) est devenu un automatisme pour les webmasters : « oh, il doit y avoir un module qui fait cela ». Dans certains cas, le nombre de modules est déjà très important alors que l’outil lui-même vient tout juste de passer en version 1.0. Si la qualité des modules et leur nombre peuvent être des signes de la vitalité d’un projet, il faut cependant faire attention à bien anticiper la maintenance sur le moyen terme (je dis bien moyen terme, tant le long terme n’est pas compatible avec l’obsolescence des outils web je pense).
Confier de façon exclusive à un module en version béta par exemple, l’interopérabilité OAI-PMH des métadonnées de son corpus, veut dire que l’on prend un risque à moyen terme, si le module n’est plus maintenu pour x. raison(s). Je ne dis pas qu’il ne faut pas l’utiliser, mais il faut avoir conscience du risque et donc avoir des solutions de remplacement. Il faut faire de la veille. Pour illustrer cela, l’animation et la veille faite par l’équipe d’Open Edition sur les modules de la plate-forme hypotheses.org est exemplaire : les modules demandés par les blogueurs sont testés, évalués puis le cas échéants proposés dans les blogs. Cependant, à moyen terme, cela n’enlève pas l’obsolescence technique des modules, mais permet d’anticiper l’évolution. La veille est donc l’indispensable compagnon des administrateurs de sites et bibliothèques.

Mais au delà, je me pose la question de la limite des CMS dans le contexte de la recherche par projets (c’est à dire avec des ruptures de charges). Les bibliothèques scientifiques, universitaires et de recherche devraient développer des structures de conservation des corpus numériques incluant, outre l’archivage pérenne des données, la conservation de la structuration intellectuelle du corpus (structuration des bases de données, manuels de saisie, publications associé aux données, schéma de métadonnées, etc.). Encore une fois, c’est par l’association des métiers et le passage de responsabilité entre les acteurs du domaine que la pérennité deviendra réelle.

Interopérabilité autour de l’édition électronique de la correspondance d’Eugène Delacroix

Le Centre André Chastel (Université de Paris-Sorbonne, Paris IV, CNRS, Ministère de la Culture et de la Communication) propose une édition électronique de la correspondance d’Eugène Delacroix (1798-1863). Accessible sur le site www.correspondance-delacroix.fr, le site est très clair et fonctionnel : il y a un moteur de recherche, un index des noms de personnes, des liens offrent la possibilité de naviguer dans le corpus. La visualisation des lettres est aussi très intéressante : fac-similés (flash, mais visualisation de l’image jpg sous ipad par exemple), transcriptions, notices biographiques, annotations, etc. Le projet semble très bien mené et rentre dans le mouvement des éditions électroniques de correspondances (littéraires, scientifiques, etc.). Ce projet a été financé par l’Agence nationale de la recherche en 2006 (appel Corpus).

On peut cependant regretter d’avoir à faire à un site « clos ».

Je m’explique : les éditeurs ont conçu un site très riche et bien pensé, mais ils n’ont pas mis en place de politique de flux de diffusion (RSS, Atom) permettant par exemple de suivre, depuis un outil de veille, les mises à jour des annotations afin de suivre les débats des spécialistes. C’est dommage car le site se veut vivant : « …grâce à la mise en ligne, [les transcriptions et annotations] seront toujours susceptibles de modifications et d’ajouts » est-il précisé dans la présentation du projet. Quel est le système de transcriptions qui a été utilisé ? Text Encoding Initiative ? Nous ne le savons pas : c’est dommage car cela aurait marqué un peu la préoccupation des éditeurs en matière d’archivage des transcriptions (même si TEI n’est pas parfait, c’est déjà au moins du XML). Autre manque : alors qu’un effort a été visiblement fait pour rendre citable les url des lettres (indépendance des liens vis à vis du système de publication), il n’est pas fait état d’un hypothétique entrepôt OAI-PMH permettant de moissonner les métadonnées des lettres de Delacroix afin de les diffuser dans les portail tel OAIster, Gallica ou ISIDORE, comme c’est le cas pour les correspondances d’André-Marie Ampère ou encore Buffon. Est-ce une volonté des éditeurs ? un oubli par manque d’information (OAI-PMH reste tout de même assez mal connu) ? Je ne sais pas. Mais, je pense qu’il est toujours dommage de ne pas disséminer les contenus d’une édition électronique d’une œuvre scientifique, littéraire ou artistique vers des portails thématiques ou disciplinaires afin de communiquer plus largement les sources de la recherche et de les rapprocher d’autres ressources. Globalement, le corpus est certes utilisable mais est-il réutilisable ? Je l’espère. En tout cas, il me tarde de voir signaler les échanges épistolaires d’Eugène Delacroix dans ISIDORE (qui contient déjà 256 ressources sur ce dernier).

Page 1 sur 7

Fièrement propulsé par WordPress & Thème par Anders Norén