sp.Blog

le blog de Stéphane Pouyllau

Étiquette : archives (Page 1 sur 2)

Exprimer simplement les métadonnées d’une page web avec RDFa

Comment exprimer des métadonnées d’une page web très simplement en utilisant la syntaxe RDFa ? Prenons exemple un billet de blog « propulsé » par WordPress. S’il existe des plugins pour cela, l’obsolescence de ces derniers peut rendre difficile leur maintien dans le temps. Autre solution, implémenter RDFa dans le code HTML du thème WordPress que l’on aura choisi. Pour ce que cela soit facile et « gérable » dans le temps, le plus simple et d’utiliser l’entête HTML <head> afin d’y placer des balises <meta> qui contiendront les métadonnées. Exprimer des métadonnées selon le modèle RDF via la syntaxe RDFa permet à des machines (principalement des moteurs de recherche) de mieux traiter l’information car elle devient plus explicite : pour une machine, une chaine de caractère peut être un titre ou un résumé, si vous ne lui dites pas que c’est un titre ou que c’est un résumé elle ne le devinera pas. A minima, il est donc possible d’utiliser les balises <meta> pour définir une structure RDF offrant la possibilité de structurer les métadonnées minimales par exemple avec le vocabulaire documentaire Dublin Core Element Set (plus connu en France sous appellation « Dublin Core simple »).

Comment faire ?

En premier, il faut indiquer dans le DOCTYPE de la page web, qu’elle va contenir des informations qui vont utiliser le modèle RDF, ainsi, le DOCTYPE sera :

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">

Dans la balise <html>, nous allons indiquer les adresses des vocabulaires documentaires – par l’intermédiaire de namespace XML – qui vont nous servir à typer les informations, dans notre exemple, nous allons utiliser le Dublin Core simple et le Dublin Core Terms (DC Terms) :

<html xmlns="http://www.w3.org/1999/xhtml" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" 
xmlns:xsd="http://www.w3.org/2001/XMLSchema#" 
xmlns:dc="http://purl.org/dc/elements/1.1/" 
xmlns:dcterms="http://purl.org/dc/terms/">

Il serait possible, pour encoder plus d’information, d’utiliser plus de vocabulaires documentaires :

<html xmlns="http://www.w3.org/1999/xhtml" 
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
xmlns:dc="http://purl.org/dc/elements/1.1/" 
xmlns:dcterms="http://purl.org/dc/terms/" 
xmlns:skos="http://www.w3.org/2004/02/skos/core#" 
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" 
xmlns:xsd="http://www.w3.org/2001/XMLSchema#" 
xmlns:foaf="http://xmlns.com/foaf/0.1/" 
xmlns:cc="http://creativecommons.org/ns#">

Ici, foaf nous servirait à encoder des informations relatives à une personne ou un objet décrit par les métadonnées, cc nous permettrait de signaler quelle licence creative commons s’appliquerait à ce contenu. Après avoir déclaré des les vocabulaires documentaires que nous allons utiliser, nous allons ajouter la structure RDFa au travers de balises <meta> dans l’entête <head> de la page HTML.

Dans un premier temps, à l’aide d’une balise <link>, nous allons définir l’objet numérique auquel les informations encodées en RDF seront rattachées :

<link rel="dc:identifier" href="http://monblog.com/monbillet.html" />

Cette balise définie donc un « conteneur » pour les informations que nous allons indiquer à l’aide des balises <meta>. Ce conteneur est identifié par une URI qui se trouve être là une URL, c’est à dire l’adresse de la page dans le web.

Maintenant, nous enchainons les balises <meta> qui définissent donc un ensemble de métadonnées, c’est à dire dans notre cas, des informations descriptives de la page web :

<meta property="dc:title" content="Le titre de mon billet" />
<meta property="dc:creator" content="Stéphane Pouyllau" />
<meta property="dcterms:created" content="2011-01-27" /> 
<meta property="dcterms:abstract" content="Un résumé descriptif du contenu de ma page" xml:lang="fr" /> 
<meta property="dc:subject" content="mot-clé 3" /> 
<meta property="dc:subject" content="mot-clé 2" /> 
<meta property="dc:type" content="billet" />
<meta property="dc:format" content="text/html" />
<meta property="dc:relation" content="Un lien vers une page web complémentaire" />

Il s’agit là d’un exemple minimal : un billet de blog utilisant le Dublin Core simple et peu descriptif sur le plan documentaire. Suivant la nature du contenu de la page web, il sera bien sur possible d’être plus précis, plus fin et plus complet dans les informations encodées. Le DC Terms permettra avec :

<meta property="dcterms:bibliographicCitation" content="Mettre ici une référence bibliographique" />

de proposer une forme pour une référence bibliographique dans le cas d’une page web décrivant un ouvrage par exemple. Il serait possible de passer l’ensemble du texte d’une page web à l’aide du vocabulaire SIOC en utilisant la propriété sioc:content. Il est possible également de relier des pages web entre elles (pour définir un corpus d’auteurs par exemple) en utilisant dans le vocabulaire DC Terms la propriété dcterms:isPartOf.

Il s’agit là d’un court billet présentant une façon très simple d’implémenter des métadonnées descriptives utilisant le formalisme RDF via une implémentation directe dans le code HTML, ce que l’on appelle le RDFa (« a » pour « in attributes« ). Cette implémentation, même minimale, permet d’être indexé par Isidore par exemple et d’indiquer des informations qui seront utilisées pour une meilleure indexation des données et qui pourront être ré-exposées dans la base de données RDF de ce dernier. La plateforme hypotheses.org (éditée par Open Edition) utilise cette implémentation d’RDFa. Pour cela, il faut simplement construire un sitemap (carte des liens du site web) au format xml pointant toutes les adresses URL des pages contenant du RDFa et que l’on souhaite voir indexer par Isidore.

Stéphane.

Thésaurus et web de données : l’exemple du Thésaurus W

Les archives de France proposent depuis quelques semaines selon les principes du web de données et du linked data le Thésaurus pour l’indexation des archives locales qui remplace l’édition 1997 du Thésaurus W et la version 2000 des listes d’autorité « actions », « typologie documentaire » et « contexte historique ». Un site web très clair a été réalisé pour l’occasion : il offre la possibilité de consulter le thésaurus bien sur, d’en télécharger une version RDF/XML mais surtout de l’interroger via le langage SPARQL qui est le langage de requête des données structurées en RDF. Ce point d’accès, on le nomme SPARQL end point (point d’accès SPARQL), est illustré de requêtes de démonstration permettant aux débutants en SPARQL d’être un peu autonome dans ce monde encore nouveau. Cette initiative est importante : elle ouvre des données publiques, elle permet de s’appuyer sur les référentiels des Archives de France pour qualifier des données tiers et donc construire des applications web riches. Dans le projet ISIDORE, nous avons d’ailleurs utilisé la liste d’autorités « contexte historique » afin d’accrocher les notices ISIDORE à des périodes historiques. Ce site est un très bel exemple de l’utilisation des méthodes du web de données pour les données publiques.

Construire le web de données pour les données de la recherche en SHS : comment utiliser RDFa ?

Le web est l’un des vecteurs principaux de la diffusion des données de recherche en sciences humaines et sociales. Il permet de diffuser et d’éditer presque tous les matériaux utilisés par le chercheur et l’enseignant : de l’archive ou la bibliothèque à la publication électronique en passant par le séminaire, le colloque, la revues et le livre. L’utilisation du web comme outil d’édition, de publication et de diffusion a permis de démultiplier les accès aux documents et à l’information. Mais depuis 20 ans, l’effort a plus porté sur la mise à disposition de documents numériques (ouvrages, articles, corpus) que sur la structuration de l’information contenue dans ces documents : il est vrai que l’essor des moteurs de recherche traditionnels depuis les années 90 (d’Altavista à Google) ont permis d’atteindre et de s’y « retrouver » dans ces milliards de documents qui sont sur le web aujourd’hui. En revanche, la publication électronique des contenus des bases de données – les données elles-même qui ont toujours leurs propres structurations, pose encore des questions et des difficultés qui font que le web, s’il est plein de documents et relativement vide de données et d’informations structurées. Ainsi, les outils d’exploitation des documents que nous utilisons aujourd’hui, tel les moteurs de recherche, fonctionnent sur des réservoirs de documents encore trop cloisonnés. Ainsi, construire une page web d’information sur l’historien Georges Duby nécessite toujours d’adresser plusieurs questions (requêtes) à plusieurs moteurs de recherche (généralistes et spécialisés) ou à plusieurs formulaires de bases de données et cela même si, depuis dix ans, les techniques de l’interopérabilité ont fait de très grand progrès. Ce web « cloisonné » ne permet pas aux machines de travailler et certaines parties du web deviennent invisibles aux moteurs de recherche et même parfois aux humains (qui s’est déjà retrouver devant un formulaire de bdd en ligne un peu froid ?). Bien sur, un homme peut le faire, à la main, mais s’il veut se faire aider de machine, pour gagner du temps ou mieux, traiter plus de données, cela devient assez complexe. Surtout pour un chercheur qui ne maitrise pas forcement le SQL et dont ce n’est pas le métier. Ainsi, les données numériques sont bien rangées dans de multiples bases de données ou silot, mais nous n’avons construit que de simples petits « judas » afin de les regarder et l’éditorialisation des données ne fait pas tout, pis, elle cache parfois, sous une couche « cosmétique » (cela dit souvent nécessaire), une faible structuration des données. La faible structuration des données freine très souvent les modes de pérennisation de ces dernières donc la possibilité de leur ré-exploitation future. Il nous faut faire mieux.

Comment dépasser cela ?

Comment rendre plus accessible encore, non pas simplement les documents (au sens des fichiers) mais les informations contenues dans ces derniers sans appauvrir les formats de structuration de l’information. Comment se donner l’opportunité de construire des outils d’aide à la recherche permettant de construire – par exemple – la notice encyclopédique de George Duby, en présentant, non pas simplement la compilation du signalement de ses articles, ouvrages, conférences, mais aussi les thèmes qu’il a abordé au cours de sa carrière et en les reliant à des notions, des définitions, des illustrations, des ouvrages d’autres auteurs ? C’est tout l’enjeu de la construction du web de données, cette extension du web dont je parlais dans mon dernier billet. Il nous faut tout d’abord libérer les données après l’avoir fait avec les bases de données elles-même.

Comment faire ?

Tout d’abord un peu d’histoire. Dans les années 1995-2000, tous les acteurs de la recherche et de la culture ont massivement édité leurs bases de données sur le web, c’était l’enjeu du moment : tout le monde voulait mettre sa base en ligne, c’était un nouveau cycle dans la diffusion des documents (après le minitel, les connexions client/serveurs). Nous sommes entrés, depuis quelques années, dans un nouveau cycle dont la première phase (la première « marche » je préfère dire) a été l’interopérabilité des bases de données. En parallèle de cette phase, qui se poursuit, nous devons « ouvrir les données ». Quel curieuse expression ! Simplement, il s’agit d’exposer les données, dans toutes leurs complexités, en utilisant le cadre de la modélisation en RDF. Pour cela, il nous faut apprendre et développer des modèles de données, faire des choix de vocabulaires documentaires afin de décrire l’information contenue dans une page web, un billet de blog, un article, un inventaire de fonds d’archive, un corpus, un thésaurus ou encore une notice de bibliothèque. Pour ouvrir ces données il faut être capable de dire : « tiens ça, c’est le titre et ça là, c’est l’auteur et je te prouve que c’est bien l’auteur car je suis capable de le relier, par un principe ouvert, normalisé et connu de tous, à un référentiel (les auteurs du sudoc par exemple) et à une forme de vocabulaire (du mods, du dublin core simple, etc.) » : les documentalistes savent très bien faire cela. Ainsi, ouvrir ses données – participer à la construction du web de données – cela revient donc à structurer de l’information avec des règles communes, valables pour tout le monde du web et où donc l’implicite n’est pas le bienvenu. Ouvrir ses données au monde c’est donc vouloir diffuser les données et par uniquement les documents et surtout dire quel choix j’ai fais pour structurer l’information. Les documentalistes font (devraient) s’y régaler.

Avec l’aide de Got, je vais présenter un exemple simple. Il est possible d’exprimer selon RDF des données structurées dans une page web écrite en HTML : il s’agit de la syntaxe RDFa (pour Resource Description Framework – in – attributes). RDFa permet donc d’utiliser la mécanique du RDF tout en utilisant comme support les balises HTML.

Je prends comme exemple, très simple, une photographie et sa notice venant de MédiHAL, l’archive ouverte de photographies scientifiques que j’ai co-créé et qui est développée par le CCSD et le CN2SV. Au travers de cet exemple, je souhaite montrer qu’il ne s’agit pas que de techniques documentaires, ou que de questions informatiques, ou encore que de questions d’édition : non, il s’agit de tous cela en même temps. Ainsi, construire le web de données c’est avant tout réunir plusieurs compétences et métiers pour envisager toutes les aspects.

La consultation avec un simple navigateur web de la notice exemple ne révèle pas la présence d’une structuration de l’information selon les principes RDF et pourtant, si l’on regarde le code source, il y a une structuration, des vocabulaires RDF et des étiquettes structurant l’information. Ainsi, dans un premier temps, il faut dire que cette page contiendra du RDFa : j’ai modifié le doctype XHTML. Il est remplaçé par un doctype XHTML+RDFa :

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">

Notez ensuite la présence de plusieurs vocabulaires documentaires qui vont nous permettre de structurer l’information :

<html xml:lang="fr" version="XHTML+RDFa 1.0" xmlns="http://www.w3.org/1999/xhtml" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:cc="http://creativecommons.org/ns#" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#" xmlns:xsd="http://www.w3.org/2001/XMLSchema#">

Pourquoi ? Puisque nous allons structurer les données contenues dans cette page web, il nous faut dire « ça, c’est le titre » : il s’agit de mettre une « étiquette » à une chaine de caractère du titre. Il nous faut construire des triplets RDF qui, par l’utilisation de prédicats (verbe), relient l’étiquette (l’objet) à la chaine de caractère du titre (sujet). Puisque nous devons dire à quel vocabulaire nous faisons référence pour dire « c’est le titre », nous les déclarons en entête. Vous reconnaitrez sans doute « dc » pour le dublin core simple (dublin core elements set ou dces), « dcterms » pour le dublin core terms, « cc » pour signaler la présence de données sous licence creative commons, « geo » pour la géolocalisation GPS, « foaf » pour décrire le document qui est ici une notice MédiHAL, etc. Ainsi je déclare là l’ensemble des vocabulaires documentaires que je vais utiliser ensuite et j’en donne la référence en ligne : http://purl.org/dc/elements/1.1/ pour le dublin core simple. Ces référentiels sont eux-même décrits et structurés en RDF : ils sont utilisés par tous et sont donc le point de référence, la norme.

Je trouve ensuite le début de ma notice, qui est matérialisée par une balise <div>  :

<div typeof="foaf:Image" about="http://medihal.archives-ouvertes.fr/medihal-00501617">

Dans cette balise (fermante à la fin de ma notice), j’y mentionne que ce qui sera dans la balise <div> est une notice d’une image et que l’URL présente dans l’attribut « about » sera l’objet auquel se rapporte les informations que je vais structurer (donc ici, un conteneur, une notice, d’une image). Les informations décrites par la suite se rapportent à cette notice (rôle du « about »), ce conteneur, accessible à cette URL. Ma données est complexe, elle est composés d’une image (qui a plusieurs représentations : plusieurs vignettes, l’image déposée, etc.) et des métadonnées, voir des commentaires (publics, privés). Pour décrire ce conteneur, j’utilise le vocabulaire foaf qui permet de décrire des ressources, des personnes ou des institutions et je vais utiliser l’élément foaf:Image. Pour la syntaxe, je vous invite à lire ce billet de Got qui présente très en détail et très clairement la syntaxe des CURIEs (ou Compact URIs) dans le monde RDF.

Dans ce <div>, je vais pouvoir structurer l’information contenue dans la données en utilisant, dans cet exemple, la balise <span> ainsi que quelques attributs : « property » pour caractériser l’information avec un vocabulaire, « rel » pour relier de l’information directement au conteneur. Ainsi pour le titre de l’image, je vais utiliser le dublin core simple (dces), nous aurons :

<span property="dc:title">Madagascar : Vallée de l'Onive aux environs de Tsinjoarivo</span>

Pour l’image en jpg présentée dans la notice (qui est l’une des représentations possibles de l’image) :

<span rel="foaf:thumbnail" about="http://medihal.archives-ouvertes.fr/medihal-00501617">
<img title="Madagascar..." id="thumb320" src="http://medihal.archives-ouvertes.fr/docs/00/50/16/17/archives/thumb320.jpg" border="0" /></span>

Là, nous caractérisons que le contenu de <img/>, c’est à dire une image en 320 pixels, est l’une des versions de l’image de la notice représentée par «  http://medihal.archives-ouvertes.fr/medihal-00501617 » : il s’agit d’une vignette de l’image d’ou « foaf:thumbnail ». Dans ce cas, il possible d’implémenter les attributs rel et about dans la balise <img>. Je l’ai mis dans un <span> pour plus de clarté. Notez que j’ai répéré dans ce <span> l’attribut « about », je n’y suis pas obligé, il est déjà signalé dans la balise <span> « mère ». Ce <span> structurant une version de l’image (une vignette de 320px de coté), j’ai préféré ré-indiquer ce « about » afin que vous compreniez bien que foaf:thumbnail (vignette) désigne une vignette de l’image déposée et dont l’URI est http://medihal.archives-ouvertes.fr/medihal-00501617.

Pour la légende, je vais utiliser le vocabulaire dublin core terms, le plus riche des dublin core avec l’étiquette dc:abstract (pour résumé) :

<span property="dcterms:abstract">Paysage rural de collines à proximité de Tsinjoarivo ; Au premier plan le bord de la terrasse de la vallée de l'Onive ; A l'arrière-plan, cultures en terrasse avec des rizières en escaliers, irriguées par un affluent du fleuve</span>

Je pourrais aussi, plus simplement mais en introduisant un peu d’implicite, utiliser dces avec l’étiquette dc:description :

<span property="dc:description">Paysage rural de collines à proximité de Tsinjoarivo ; Au premier plan le bord de la terrasse de la vallée de l'Onive ; A l'arrière-plan, cultures en terrasse avec des rizières en escaliers, irriguées par un affluent du fleuve</span>

Pour exprimer les mots clés, je vais utiliser une nouvelle fois le dces :

<span property="dc:subject"><a href="[lien vers mes mots-clés]">Madagascar</a></span>

Il est possibilité là aussi d’être plus riche, en reliant mon mot-clés à un référentiel (thésaurus par exemple) en utilisant les vocabulaires sioc et skos pour exprimer des concepts et les liaisons :

<span rel="sioc:topic" href="http://dbpedia.org/resource/Madagascar">
<span instanceof="skos:concept" about="http://dbpedia.org/resource/Madagascar">

   <span property="dc:subject"><a href="[lien vers mes mots-clés]">Madagascar</a></span>

 </span>
</span>

Pour la géolocalisation de mon image, je vais utiliser le dublin core terms avec l’étiquette « spacial », qui va me permettre de relier mon conteneur (foaf:Image) à des valeurs de latitude et de longitude. Ainsi, j’exprime dans dcterms:spatial une latitude et une longitude issues d’un GPS ou d’une géolocalisation en spécifiant que je fais référence au vocabulaire WGS validé par le W3C (geo:lat et geo:long).

<span rel="dcterms:spatial">
<span property="geo:lat" content="-19.644527589975"></span>
<span property="geo:long" content="47.709846500067"></span>
</span>

Je me limite ici à quelques éléments de cette image (en prenant du DC simple pour être pédagogique), il est possible d’aller plus loin dans la structuration (en utilisant du DC terms ou d’autres vocalulaires).

Conclusion

Le web de données est une méthode qui consiste à utiliser le web comme un espace ou les données sont structurées : c’est à dire que l’information d’un document (pdf, jpg, txt, etc.) est cartographiée, repérée, signalée et reliée à des vocabulaires, accessibles eux-même sur le web et dont la structuration est connue et explicitée. C’est un formidable enjeux pour les documentalistes, les bibliothèques et les ingénieurs et techniciens en digital humanities qui construisent des corpus scientifiques et les diffusent en ligne. Le RDFa est l’une des techniques, l’une des mécaniques possible et elle est relativement simple à comprendre car elle s’inscrit dans une évolution naturelle des choses : une sémantisation de la page web via le code HTML. Il s’agit d’une révolution mais qui s’appuie sur des éléments que tout les professionnels de l’IST peuvent maitriser. J’ai toujours pensé et dit que l’OAI-PMH était (est) la première marche vers le web de données, je pense qu’RDFa est la deuxième, du moins c’est un pont très simple pour mieux comprendre RDF et les techniques du web de données.

Stéphane.

Liens utiles pour aller plus loin :

La communauté française des digital humanities

THATCamp Paris 2010, sur la Baleine blanche - Crédits : Elodie Picard / CC

Après deux jours d’ateliers, démos, débats, discussions le THATCamp Paris 2010, la non-conférence sur les digital humanities, lance le Manifeste des digital humanities. Ce texte, fondateur de la communauté des digital humanities en France est très important. Il a permis tout d’abord de répondre à la question posée dans le THATCamp : « voulons-nous travailler ensemble ? ». La réponse est largement positive à mon sens.

Ce besoin de travailler ensemble est partagé par tous, et nous avons vu qu’il dépasse bien évidement les cadres institutionnels actuels. C’est une vision personnelle, mais ces derniers me semblent peu adaptés au développement d’une communauté qui a conscience que les actions locales se font mieux si elle s’appuient sur des structures nationales mutualisées (ex. grilles de calcul, infrastructures d’hébergement de données, services d’archivage de données numériques). J’invite tous les lecteurs de ce blog, qui soient ou qui se sentent acteurs des digital humanities à signer ce Manifeste qui pose les bases claires d’une communauté se donnant des objectifs précis.

Je pense en particulier aux documentalistes qui sont dans les laboratoires de recherche des sciences humaines et sociales, et dont certains étaient au THATCamp Paris 2010, mais que je trouve toujours trop absents de ces moments de réflexion sur l’évolution des métiers, méthodes, etc. Les documentalistes font un travail de production sur le terrain très important. Au delà des centres de documentation et des bibliothèques de recherche, certains coordonnent réellement des projets de recherche sur le plan documentaire et donc sont pleinement dans les problématiques dont nous avons discutées lors de ces deux jours.

Par exemple, le point 14 du Manifeste propose de construire, de façon itérative, des cyberinfrastructures correspondant à des besoins réels. Voici un chalenge difficile, pris entre les intérêts des économies locales de la recherche proches des chercheurs (Universités, Maisons des sciences de l’homme par exemple) et ceux « inter-nationaux », européens par exemple, pourtant nécessaires mais complexe à comprendre tant il est difficile pour un chercheur de s’y projeter.
Un exemple a été pris par Got sur les questions de l’archivage des données numériques (la mémoire du XXIe siècle). Il faut accepter de faire confiance à une autre institution, à une autre personne, pour archiver ses propres données, issues d’une collecte qui a pu prendre, parfois, toute une vie. « Accepter de faire confiance » c’est avant tout reconnaitre que l’on est pas compétent pour traiter tel ou tel sujets, ou techniques, ou méthode. Cela ne veut pas dire que l’on va perdre « la main » sur les données (les mécanismes de contrôle d’accès existent et sont fiables). Cela ne veut pas dire non plus qu’il ne faut pas tenter de comprendre (loin de moi l’idée de saucissonner les métiers et les taches), mais c’est reconnaitre qu’à un moment, il faut accepter de faire 10 à 15% d’un travail pour lequel l’on ne sera pas reconnu, qui ne comptera pas dans son évaluation personnelle, afin de transmettre à un autre de l’information afin qu’il l’archive, la traite, l’édite, la valorise, la distribue, etc. et vous la repasse parfois pour en faire autre chose. C’est l’un des enjeux majeur du Manifeste selon moi. Les cyberinfrastructures seront ce que nous en ferons, pour cela il faut accepter de faire 10 à 15% du chemin vers le collègue (l’ingénieur ou le chercheur) qui a une ou plusieurs compétences et donc qui a un Métier. C’est aussi considérer que ce qu’il fait est égal à ce l’on fait. Publier un article dans une revue de rang A est égal à concevoir un logiciel permettant de calculer des résultats à partir de données : la seconde tache permettant de faire la première, la première est dépendante de la seconde et la seconde sans la première dans pas de finalité réelle (exception faite pour les questions d’archivages).

Pour moi, il s’agit là d’une formidable aventure que la communauté des digital humanities, rassemblée autour du Manifeste, doit mener.

Crédits photos : Elodie Picard/CLEO-Revues.org – Licence Creative Commons : Attribution-NonCommercial-NoDerivs 2.0 Generic

Le meilleur format de conservation des données numériques, c’est vous.

Got vient de publier un billet très intéressant sur le fait que la notion de format pérenne ne veut rien dire. Je suis entièrement d’accord et nous sommes plusieurs ingénieurs, dans les sciences humaines et sociales numériques, à partager cet avis. L’information, encodée dans un fichier numérique, est dépendante de la structure du format, de ses spécifications, des logiciels capables de lire ce format et d’offrir ainsi « une vue », à un instant T, sur l’information. Faire de l’édition en ligne, diffuser des données, nécessite d’être conscient de fragilité des formats dans le temps. Il est facile de l’être pour qui a déjà perdu des données importantes.
Cela dit, j’irai plus loin que Got.
Dans un cas extrême, un format ouvert, mais mal documenté ou dont la documentation n’a pas été bien maintenue dans le temps, peut être plus complexe à migrer qu’un format propriétaire. Pourtant les formats propriétaires sont liés au cycle de vie de plus en plus court des versions de leurs logiciels « maitres ». S’il est aujourd’hui possible de migrer, sans trop de problème, un fichier propriétaire de la version N à N+1 de son logiciel « maitre », il souvent difficile de faire du N+3 ou 4. Également, certains types de formats sont encore trop propriétaires : c’est le cas des fichiers 3D. Si le VRML, et son « successeur » le X3D sont ouverts et normalisés, ces formats n’occupent pas réellement la place de « format pivots », éligibles à un archivage à long terme de type OAIS : ils sont considérés comme « trop pauvres » par les modeleurs que les format 3D propriétaires de type .max de 3DS max pour cela. Il est d’ailleurs curieux que le VRML et le X3D soient vus comme des formats pivots alors qu’ils n’ont pas été créés pour cela. Souvent, des collègues non spécialistes me dise : « on fera une sortie VRML pour sauvegarde » : sont-ils conscient de l’appauvrissement de l’information entre un fichier max et VRML ? Les travaux du centre de ressources ArchéoVision du CNRS, dirigé par Robert Vergnieux, éclairera ces questions dans les années qui viennent par la création du conservatoire des données 3D du patrimoine.

Formats ouverts, formats propriétaires… maintenir l’accès à l’information est avant tout une histoire de veille technologique humaine et de conseils aux utilisateurs et aux décideurs. Il est aussi important de dire clairement pourquoi un format ouvert peut être, à un moment de son évolution, moins bon pour l’archivage numérique à long terme. Un format bien documenté ne sert a rien si personne n’en suit les évolutions et les usages. Il faut des équipes qui « suivent » les choses dans le temps : l’archivage à long terme des données déposés dans HAL a mobilisé plusieurs équipes formées d’archivistes, d’informaticiens, de chercheurs en amont même !

Ainsi, le meilleur « format » numérique de conservation ne sert-il pas l’humain ?

Stéphane.

Sciences humaines et sociales numériques

Bonjour,
Très prochainement, deux évènements vont avoir lieu dans le monde des sciences humaines et sociales numériques (cette expression fait encore débat pour la version française du terme digital humanities) : le THATCamp Paris 2010 (Paris, 18/19 mai 2010) et la formation sur la gestion numérique des sources de la recherche en sciences humaines et sociales (Aussois, 11/15 octobre 2010) et dont le wiki va être ouvert dans quelques jours sur le site www.digitalhumanities.fr. Ces évènements sont importants. Ils montrent le mouvement actuel d’organisation des shs numériques. Les acteurs du domaine, institutionnels mais aussi informels structurent ce vaste « eldorado ». Depuis deux, trois ans, les actions de formation mais aussi de nombreux ateliers et séminaires se sont multipliés partout en France et les acteurs du domaine, chercheurs, informaticiens, documentalistes et bibliothécaires travaillent de plus en plus en coopération. Des utilisateurs vont à la rencontre de plateformes, services et des communautés de veilleurs naissent et diffusent via de « nouveaux » canaux. Récemment, une collègue de la bibliothèque universitaire de Lyon 1 a présenté sa démarche et son parcours pour la création d’une photothèque utilisant comme réservoir de données MédiHAL. Même si MédiHAL évolue petit à petit, suite aux critiques, conseils, retours des utilisateurs, je suis très heureux de voir que cette application est aussi utilisée en tant que simple conteneur de données. Le projet de la BU de Lyon 1 n’utilise les possibilités de l’OAI-PMH (avec moissonnage du dc:terms par exemple), il utilise cependant MédiHAL comme un simple conteneur (archivé à long terme très bientôt) ainsi il me tarde de voir les premières applications documentaires ou sites web qui viendront moissonner tel ou tel « sets » (collections) OAI-PMH de MédiHAL. Les sciences humaines et sociales numériques comme dirait Lou Burnard sont en pleine évolution : les applications sont en plein « mashup-age », l’archivage à long terme devient une réalité pour les données des SHS et bientôt, sans doute, les résultats de la recherche seront connectés aux matériaux sources de la recherche.

Stéphane.

MédiHAL : une photo pour une archive ouverte de photographies scientifiques

Mari, Tell Hariri Couple assis et buste d'un personnage barbu Syrie, Syria n° d'inventaire : 01105, Ifpo Institut Français Du Proche-Orient

Après quelques mois de travail avec l’équipe du Centre pour la communication scientifique directe (CCSD, www.ccsd.cnrs.fr) du CNRS, j’ai le plaisir de vous annoncer la création de MédiHAL : une archive ouverte de photographies et d’images scientifiques.

En juin 2006, dans les début du CN2SV, Fabrice Melka (du Cemaf-CNRS) et moi-même avions rédigé un projet qui jetait les bases de ce projet. A l’époque nous avions appelé cela « AOPS » : pour Archive Ouverte de Photographies Scientifiques. A l’époque nous pensions développer cela entre nous au CN2SV, comme nous l’avons fait notre autre plateforme AOMS, mais très rapidement nous avons compris qu’il nous fallait une équipe pour nous aider à réaliser ce projet qui nous tenait à cœur.

MédiHAL utilise le logiciel HAL qui est utilisé en France pour l’archive ouverte HAL. dont nous avons retravaillé le modèle de métadonnées. MédiHAL permet de cataloguer, géo-référencer et indexer les images et c’est Shadia Kilouchi, documentaliste contractuelle au CNRS, travaillant au CN2SV, qui a réalisé ce travail de modélisation et de réflexion documentaire en relation avec un grand nombre de collègues du CNRS et des universités. Je suis très heureux de voir que ce projet a mobilisé pour son élaboration des documentalistes, des développeurs, des chercheurs, qui ont travaillé ensemble autour de cette idée. Je remercie tous ceux qui nous ont aidé et qui supportent MédiHAL.

Dans un premier temps, MédiHAL est un réservoir de données pour les chercheurs et les enseignants qui souhaite archiver leurs images et permettre leur diffusion. Nous avons plus travailler sur le premier point, qui nous simple être un peu l’urgence aujourd’hui. Mais nous souhaitons petit à petit, selon les demandes, améliorer les outils et services pour la diffusion des images dépôts. A terme, j’espère que cette archive ouverte sera utilisée pour diffuser des corpus de chercheurs et de laboratoires. Nous encourageons les chercheurs qui ont souvent fait pendant plusieurs décennies des photos, pour leurs travaux de recherche, a les déposer dans MédiHAL  afin de les sécuriser (trop de disques durs et d’ordinateurs s’arrêtent sans prévenir, non ?) et de les diffuser (dans le respect des droits d’auteurs et des personnes).

Pour finir, la petite histoire de l’illustration du site MédiHAL. J’ai utilisé une photo que j’ai faite en juillet 2008, dans le centre de documentation/photothèque REGARDS (Pessac), Université de Bordeaux – CNRS. Il s’agit d’un meuble permettant de ranger un fichier de notices décrivant des photographies de géographie. Ce fichier est celui de la photothèque du CEGET, ancien laboratoire de recherche du CNRS. Il s’agit d’un « MédiHAL local » de l’époque…

banque d'images du CEGET - CNRS

Le recensement canadien de 1881 en ligne

Bonjour,

La bibliothèque et les archives du Canada (BAC) ont ouvert le 6 août 2008 un site permettant l’accès aux données du recensement canadien de 1881. Les données du recensement, qui offrent une véritable photographie de la vie au Canada en 1881, sont à la fois disponibles au travers d’une base de données textuelle (avec un formulaire de recherche très complet, voir complexe, mais très intéressant pour les généalogistes) et sous la forme d’images JPEG (de bonne qualité) ou de fichiers PDF présentant les données originales (visiblement numérisées depuis un micro-film).

L’interface est très simple, très clair et très bien documenté ce qui facilite les recherches. Il est dommage d’un système de panier, permettant de conserver ces recherches pour le temps d’une session, ne soit pas proposé. Cependant, cet outil – en français et en anglais – est une très belle réalisation et il enchantera les chercheurs et les généalogistes. L’utilisation des images semble libre – pour une utilisation recherche ? – puisqu’il est proposé :
« Vous pouvez imprimer les images ou les sauvegarder sur votre ordinateur. Utilisez le lien suivant pour accéder à d’autres options, telles qu’emprunter des microfilms. »

Sans tomber dans la surenchère technologique, ce site illustre, avec tous ceux déjà réalisés par ces deux institutions, l’importance future de ces réservoirs de données pour les digitals humanities dans le monde.

Stéphane

Archive numérique d’Objets et de Matériaux iconographiques

L’annonce faite par Dan Cohen de l’association entre Zotero et Internet Archive pour la création de Zotero Commons (« The Zotero-IA alliance will create a “Zotero Commons” into which scholarly materials can be added simply via the Zotero client. » nous dit Dan Cohen) est très intéressante car elle (re)place les matériaux de recherche (carnets de terrains, carnets de notes, documents numériques, etc.) dans le monde des Archives Ouvertes. Ces dernières prendront peut-être à cette occasion un nouveau sens. Bien sur, il y a plein de problèmes à résoudre dans ce type de projets : la question des droits (cruciale, pour documents visuels dont le statut – à la prise de vue – est souvant flou ou mal défini), l’utilité de proposer tel ou tel document (pertinance), le rôle des intermédiaires ou « rouages classiques » entre les chercheurs, les étudiants et le grand public que sont les bibliothèques et centres de documentation.

Dans mon domaine, les Sciences Humaines et Sociales, les matériaux ayant été utilisés par les chercheurs pour leurs recherche sont très souvant publics, libres de droits ou en passe de le devenir (il suffit de faire de bonne convention avec les institutions dépositaires ou d’attendre…) et donc archivables dans une Archive numérique d’Objets et de Matériaux iconographiques (ou AOMS). C’est ce que nous tentons de construire, du moins de préfigurer avec le Centre National pour la Numérisation de Sources Visuelles et avec le soutien du TGE ADONIS et du département SHS du CNRS. Au CN2SV, nous travaillons avec des bibliothèques, des centres de documentation, des services d’archives autour du thème « archives – recherche – informatisation des données » définie par ma collègue Christine Blondel, historienne des sciences et chercheur au CNRS. Notre plateforme AOMS fonctionne depuis un an.

Ces projets permettront d’accroitre les échanges entre les scientifiques. Ils permettront aussi d’améliorer les méthodes et outils pour la conservation de nos fragiles documents numériques et ils seront les structures de conservation des matériaux des historiens du futur.

Bonne année 2008, à bientôt,

Stéphane.

Equipes Numériques : nouveaux métiers, nouvelles structures

Ce billet s’appuie sur le texte de Pierre Mounier disponible en ligne sur l’Unité Numérique de l’ENS LSH.

 

La diffusion de sources historiques sur le web est en augmentation et la demande est de plus en plus forte. Les étudiants, au niveau master par exemple, seront dans quelques années, les principaux utilisateurs des sources historiques numérisées et disponibles en ligne (web et entrepôts OAI). Le signalement de ces sources s’améliore de jours en jours même si de nombreux sites ou entrepôts de données restent « isolés » (notion curieuse pour le web je vous l’accorde). Après l’époque des sites web offrant des sources numérisées, nous sommes dans celle des entrepôts, et des méta-entrepôts. Aujourd’hui, tout le monde fait de la rétro-numérisation de sources : bibliothèques, services d’archives, laboratoires de recherche, projets de recherche. Même un chercheur isolé demande de plus en plus une copie numérisée d’une source et si possible envoyée à son adresse électronique. Depuis quelques années, des présentations PowerPoint, « augmentées » de sources numériques, fleurissent dans les TD des universités et les plateformes d’enseignement à distance. Dans le monde de la recherche scientifique en sciences humaines et sociales, c’est aujourd’hui une évidence, les sources numérisées sont partout.

Depuis quelques années, la demande devient également importante. Aujourd’hui, les chercheurs publient des articles dans des revues électroniques, déposent dans les archives ouvertes et associent, ou le feront bientôt, à leurs articles des fac-similés numériques (manuscrits, collections de photos, etc.). Face à cette demande, des méta-entrepôts sont en construction. Ils sont souvent la partie immergé de méta-portails disciplinaires. La tendance actuelle et à l’interconnexion de ces méta-entrepôts à l’aide protocoles fondés sur : des normes communes, des briques technologiques communicantes et utilisant les canaux naturels du web (http, etc.).

Dans les sciences humaines, ces méta-entrepôts sont créés la plupart du temps par les équipes IT regroupant des ingénieurs, des techniciens spécialisés en information scientifique et techniques (IST), en documentation et archivistique et des chercheurs (voir le billet de Pierre Mouier sur l’Unité Numérique). En lisant ce billet, je me suis aperçu que mon équipe IT – le CRHST et son centre de ressources numériques (le CN2SV) – avait un rôle assez semblable finalement et je me suis assez bien reconnu dans ce paragraphe de Pierre Mounier :

« Pour dire les choses brutalement, l’Unité Numérique est une structure nouvelle qui répond à une situation nouvelle. On peut penser qu’elle est une manière particulière, comme d’autres le font différemment ailleurs, d’inventer un nouveau métier, celui d’éditeur numérique. Elle ne pourrait faire ni l’un ni l’autre (répondre à la situation et inventer un métier) si son centre de gravité se déplaçait et la faisait tomber de l’un ou l’autre des côtés (dans une bibliothèque, un service informatique ou une maison d’édition traditionnelle). »

Un nouveau métier ? Oui, j’en suis persuadé depuis quelques temps, c’est bien un nouveau métier avec ces formations et ces réseaux. A nouveau métier, nouvelles structures ? Bien évidement. Elles font de l’informatisation des données, de l’ingénierie documentaire, de la re-documentarisation de sources, de l’édition électronique et elles inventent et adaptent des outils informatiques pour des projets de recherche. Elles sont le lien, grâce à la veille technologique, entre les contenus des grandes bibliothèques numériques et les besoins des chercheurs. Je rejoints également Pierre Mounier sur l’idée suivante :

« … le principe du respect de l’autonomie scientifique et éditoriale des équipes de recherche avec lesquelles le travail est fait. Et l’application de ce principe est un peu une quête du Graal car il ne se résume évidemment pas à laisser les chercheurs tout faire par eux-mêmes. Il s’agit bien plutôt de faire en sorte que les choix qui sont faits et les actions techniques qui sont déléguées à l’Unité Numérique ne se traduisent pas par une dépossession et finalement une trahison des projets de recherche. Il faut donc pour chaque projet, en fonction du type de réalisation et de demande, mais en fonction aussi des particularités propres à l’équipe qui la porte, imaginer un dispositif qui mixe un choix d’outils appropriés, une bonne répartition des tâches et des niveaux de décision et une dose variable de formation des équipes de recherche aux technologies numériques. A ma connaissance, mais je peux me tromper, la composition du cocktail n’est pas totalement standardisable et ne peut faire l’objet de procédures automatiques. »

Pour ma part, et depuis que je travaille dans ce domaine du CNRS, je pense que l’accompagnement des chercheurs dans leurs projets doit s’appuyer sur :

  1. Un respect éditorial du projet porté par l’équipe de recherche (ER)

  2. Une implication de l’ER, par l’initiation, l’information et la démonstration, dans les problématiques propres à l’équipe IT. Ainsi elle comprend mieux les contraintes (techniques, financières, etc.) et les choix réalisés.

  3. Un respect des formats ouverts, tant sur le plan des logiciels que sur les formats de stockages des données

  4. L’établissement de phases de production qui prennent en compte la pérennité des données et des réalisations (en collaboration avec d’autres organismes pour les productions web par exemple)

Ce sont les quatre principales règles que nous respectons au CRHST et dans le cadre du CN2SV, elles sont proches de celles de l’Unité de Pierre Mounier. Je pense qu’elles doivent être utilisées ailleurs, dans d’autres équipes adossées à d’autres institutions, et j’en suis heureux. Ce nouveau métier et ces structures nouvelles au service des sources numérique en ligne, ouvrent sans aucun doute, de nouveaux horizons pour la recherche scientifique.

Alors, 2008, année zéro ?

Page 1 sur 2

Fièrement propulsé par WordPress & Thème par Anders Norén