<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Sp.Blog &#187; métadonnées</title>
	<atom:link href="http://blog.stephanepouyllau.org/tag/metadonnees/feed" rel="self" type="application/rss+xml" />
	<link>http://blog.stephanepouyllau.org</link>
	<description>le blog de Stéphane Pouyllau</description>
	<lastBuildDate>Sat, 07 Jan 2012 18:07:33 +0000</lastBuildDate>
	<language>fr</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>Les corpus au pays des modules</title>
		<link>http://blog.stephanepouyllau.org/520</link>
		<comments>http://blog.stephanepouyllau.org/520#comments</comments>
		<pubDate>Thu, 22 Dec 2011 18:48:18 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[content management system]]></category>
		<category><![CDATA[ICEberg]]></category>
		<category><![CDATA[interopérabilité]]></category>
		<category><![CDATA[métadonnées]]></category>
		<category><![CDATA[OAI-PMH]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=520</guid>
		<description><![CDATA[Dans un billet récent, Alexandre Moatti, faisait quelques remarques sur la bibliothèque numérique de l&#8217;Institut. Dans son texte, il fait référence à ICEberg, un logiciel que j&#8217;ai créé en 2002-2003 afin de proposer un outil de mise en ligne de corpus numériques. ICEberg a évolué avec le temps et il a été ré-écrit 3 fois [...]]]></description>
			<content:encoded><![CDATA[<p>Dans un <a href="http://bibnum.over-blog.com/article-bibliotheque-numerique-de-l-institut-de-france-92053375.html">billet récent</a>, <a href="http://fr.wikipedia.org/wiki/Alexandre_Moatti">Alexandre Moatti</a>, faisait quelques remarques sur la bibliothèque numérique de l&#8217;Institut. Dans son texte, il fait référence à ICEberg, un logiciel que j&#8217;ai créé en 2002-2003 afin de proposer un outil de mise en ligne de corpus numériques. <a href="http://blog.stephanepouyllau.org/54">ICEberg</a> a évolué avec le temps et il a été ré-écrit 3 fois depuis 2002.<br />
C&#8217;est normal, les outils en ligne (les applications web) sont très vite obsolètes : les briques permettant de les construire (PHP, Python, Jquery, etc.) évoluent en permanence et contraignent donc les développeurs et webmasters à faire régulièrement des nouvelles moutures de leurs programmes. Depuis la généralisation des systèmes de gestion de contenu (CMS) de 2eme et 3eme génération se sont ajoutées aux couches basses (PHP, MySQL, version d&#8217;Apache ou d&#8217;IIS) une kyrielle de modules qui ont la fâcheuse tendance à ne plus être compatibles avec le noyau du CMS après parfois quelques semaines seulement.<br />
Dans certains cas, des modules importants ont été incorporés dans le noyau ; mais pour beaucoup de fonctionnalités, le recours à de nouveaux modules répondant à des besoins toujours nouveaux (OAI-PMH, &laquo;&nbsp;<a href="http://zotero.org">zotero</a> inside&nbsp;&raquo;, galeries d&#8217;images, etc.) est devenu un automatisme pour les webmasters : &laquo;&nbsp;oh, il doit y avoir un module qui fait cela&nbsp;&raquo;. Dans certains cas, le nombre de modules est déjà très important alors que l&#8217;outil lui-même vient tout juste de passer en version 1.0. Si la qualité des modules et leur nombre peuvent être des signes de la vitalité d&#8217;un projet, il faut cependant faire attention à bien anticiper la maintenance sur le moyen terme (je dis bien moyen terme, tant le long terme n&#8217;est pas compatible avec l&#8217;obsolescence des outils web je pense).<br />
Confier de façon exclusive à un module en version béta par exemple, l&#8217;interopérabilité OAI-PMH des métadonnées de son corpus, veut dire que l&#8217;on prend un risque à moyen terme, si le module n&#8217;est plus maintenu pour x. raison(s). Je ne dis pas qu&#8217;il ne faut pas l&#8217;utiliser, mais il faut avoir conscience du risque et donc avoir des solutions de remplacement. Il faut faire de la veille. Pour illustrer cela, l&#8217;animation et la veille faite par l&#8217;équipe d&#8217;<a href="http://www.openedition.org">Open Edition</a> sur les modules de <a href="http://hypotheses.org">la plate-forme hypotheses.org</a> est exemplaire : les modules demandés par les blogueurs sont testés, évalués puis le cas échéants proposés dans les blogs. Cependant, à moyen terme, cela n&#8217;enlève pas l&#8217;obsolescence technique des modules, mais permet d&#8217;anticiper l&#8217;évolution. La veille est donc l&#8217;indispensable compagnon des administrateurs de sites et bibliothèques.</p>
<p>Mais au delà, je me pose la question de la limite des CMS dans le contexte de la recherche par projets (c&#8217;est à dire avec des ruptures de charges). Les bibliothèques scientifiques, universitaires et de recherche devraient développer des structures de conservation des corpus numériques incluant, outre l&#8217;archivage pérenne des données, la conservation de la structuration intellectuelle du corpus (structuration des bases de données, manuels de saisie, publications associé aux données, schéma de métadonnées, etc.). Encore une fois, c&#8217;est par l&#8217;association des métiers et le passage de responsabilité entre les acteurs du domaine que la pérennité deviendra réelle.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/520/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Les données numériques des SHS entrent dans le web de données</title>
		<link>http://blog.stephanepouyllau.org/436</link>
		<comments>http://blog.stephanepouyllau.org/436#comments</comments>
		<pubDate>Thu, 09 Dec 2010 19:34:44 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[web sémantique]]></category>
		<category><![CDATA[dublincore]]></category>
		<category><![CDATA[interopérabilité]]></category>
		<category><![CDATA[isidore]]></category>
		<category><![CDATA[linked data]]></category>
		<category><![CDATA[métadonnées]]></category>
		<category><![CDATA[OAI-PMH]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[sciences humaines et sociales]]></category>
		<category><![CDATA[sources historiques]]></category>
		<category><![CDATA[web of data]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=436</guid>
		<description><![CDATA[Avec l&#8217;ouverture d&#8217;isidore (réalisée par le très grand équipement Adonis du CNRS) les données numériques des sciences humaines et sociales entre dans le web de données et vont bientôt rejoindre le linking open data cloud diagram ou &#171;&#160;Lod&#160;&#187; maintenu par Richard Cyganiak (DERI, NUI Galway) and Anja Jentzsch (Freie Universität Berlin), en tous cas, je [...]]]></description>
			<content:encoded><![CDATA[<p>Avec l&#8217;ouverture d&#8217;<a title="isidore" href="http://www.rechercheisidore.fr" target="_blank">isidore</a> (réalisée par le <a href="http://www.tge-adonis.fr">très grand équipement Adonis</a> du CNRS) les données numériques des sciences humaines et sociales entre dans le web de données et vont bientôt rejoindre le <a title="lod" href="http://richard.cyganiak.de/2007/10/lod/" target="_blank"><em>linking open data cloud diagram</em></a> ou &laquo;&nbsp;Lod&nbsp;&raquo; maintenu par <a href="http://richard.cyganiak.de/#me">Richard Cyganiak</a> (<a href="http://www.deri.ie/">DERI, NUI Galway</a>) and <a href="http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/team/JentzschAnja.html">Anja Jentzsch</a> (<a href="http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/">Freie Universität Berlin</a>), en tous cas, je l&#8217;espère.</p>
<p>Isidore est une plateforme de recherche permettant la recherche d&#8217;information dans les données numériques des SHS, quelles soient sources pour faire de la recherche ou bien publications des résultats de la recherche. J&#8217;ai le plaisir de co-diriger ce projet avec <a href="http://panini.u-paris10.fr/jlm/" target="_blank">Jean-Luc Minel</a> dans le cadre de l&#8217;équipe du <a title="TGE Adonis" href="http://www.tge-adonis.fr" target="_blank">Adonis</a>, le très grand équipement du <a title="CNRS" href="http://www.cnrs.fr">Centre national de la recherche scientifique</a>.</p>
<p>Je profite de ce petit billet &laquo;&nbsp;auto-promotionnel&nbsp;&raquo; pour remercier Gautier Poupeau (alias <a href="http://www.lespetitescases.net">Got)</a> sans qui ce projet n&#8217;aurait pas pu être conçu et réalisé ainsi que toute l&#8217;équipe du centre pour la communication scientifique directe (<a title="CCSD" href="http://www.ccsd.cnrs.fr/spip.php?rubrique6" target="_blank">Laurent Capelli, Philippe  Correia, Loic Comparet, Yannick Barborini et Daniel Charnay</a>) qui participe à ce beau projet.</p>
<p>Isidore moissonne des métadonnées et des données selon les protocoles OAI-PMH, des signalements d&#8217;actualités via RSS et Atom, des données structurées selon RDFa et peut se connecter à des catalogues de bibliothèques SRU/SRW (z3950). Isidore enrichit ces données en les croisant, en les qualifiant avec des thésaurii, des référentiels, des listes d&#8217;auteurs et les ré-exposent selon les principes du linked data. Pour utiliser ces données, un site web a été créé : www.rechercheisidore.fr. Vous pouvez donc interroger les articles de <a href="http://revues.org" target="_blank">Revues.org</a>, <a href="http://cairn.info">Cairn</a>, <a href="http://www.persee.fr" target="_blank">Persée</a>, les ouvrages, textes, images de <a href="http://gallica.bnf.fr">Gallica</a>, <a href="http://halshs.archives-ouvertes.fr" target="_blank">HALSHS</a>, <a href="http://medihal.archives-ouvertes.fr" target="_blank">MédiHAL</a> avec un seul formulaire et avec des liens entre toutes ces données.</p>
<p>Dans isidore, les métadonnées sont transformées en RDF, ainsi les données des shs entrent dans le web de données.</p>
<p>Mais nous sommes en version béta, alors le travail continu.</p>
<p>Stéphane.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/436/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Construire le web de données pour les shs : comment utiliser RDFa ?</title>
		<link>http://blog.stephanepouyllau.org/401</link>
		<comments>http://blog.stephanepouyllau.org/401#comments</comments>
		<pubDate>Mon, 30 Aug 2010 07:11:54 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[web sémantique]]></category>
		<category><![CDATA[archives]]></category>
		<category><![CDATA[métadonnées]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[rdfa]]></category>
		<category><![CDATA[web of data]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=401</guid>
		<description><![CDATA[Le web est l&#8217;un des vecteurs principaux de la diffusion des données de recherche en sciences humaines et sociales. Il permet de diffuser et d&#8217;éditer presque tous les matériaux utilisés par le chercheur et l&#8217;enseignant : de l&#8217;archive ou la bibliothèque à la publication électronique en passant par le séminaire, le colloque, la revues et le [...]]]></description>
			<content:encoded><![CDATA[<p>Le web est l&#8217;un des vecteurs principaux de la diffusion des données de recherche en sciences humaines et sociales. Il permet de diffuser et d&#8217;éditer presque tous les matériaux utilisés par le chercheur et l&#8217;enseignant : de l&#8217;archive ou la bibliothèque à la publication électronique en passant par le séminaire, le colloque, la revues et le livre. L&#8217;utilisation du web comme outil d&#8217;édition, de publication et de diffusion a permis de démultiplier les accès aux documents et à l&#8217;information. Mais depuis 20 ans, l&#8217;effort a plus porté sur la mise à disposition de documents numériques (ouvrages, articles, corpus) que sur la structuration de l&#8217;information contenue dans ces documents : il est vrai que l&#8217;essor des moteurs de recherche traditionnels depuis les années 90 (d&#8217;Altavista à Google) ont permis d&#8217;atteindre et de s&#8217;y « retrouver » dans ces milliards de documents qui sont sur le web aujourd&#8217;hui. En revanche, la publication électronique des contenus des bases de données – les données elles-même qui ont toujours leurs propres structurations, pose encore des questions et des difficultés qui font que le web, s&#8217;il est plein de documents et relativement vide de données et d&#8217;informations structurées. Ainsi, les outils d&#8217;exploitation des documents que nous utilisons aujourd&#8217;hui, tel les moteurs de recherche, fonctionnent sur des réservoirs de documents encore trop cloisonnés. Ainsi, construire une page web d&#8217;information sur l&#8217;historien Georges Duby nécessite toujours d&#8217;adresser plusieurs questions (requêtes) à plusieurs moteurs de recherche (généralistes et spécialisés) ou à plusieurs formulaires de bases de données et cela même si, depuis dix ans, les techniques de l&#8217;interopérabilité ont fait de très grand progrès. Ce web « cloisonné » ne permet pas aux machines de travailler et certaines parties du web deviennent invisibles aux moteurs de recherche et même parfois aux humains (qui s&#8217;est déjà retrouver devant un formulaire de bdd en ligne un peu froid ?). Bien sur, un homme peut le faire, à la main, mais s&#8217;il veut se faire aider de machine, pour gagner du temps ou mieux, traiter plus de données, cela devient assez complexe. Surtout pour un chercheur qui ne maitrise pas forcement le SQL et dont ce n&#8217;est pas le métier. Ainsi, les données numériques sont bien rangées dans de multiples bases de données ou silot, mais nous n&#8217;avons construit que de simples petits « judas » afin de les regarder et l&#8217;éditorialisation des données ne fait pas tout, pis, elle cache parfois, sous une couche « cosmétique » (cela dit souvent nécessaire), une faible structuration des données. La faible structuration des données freine très souvent les modes de  pérennisation de ces dernières donc la possibilité de leur ré-exploitation future. Il nous faut faire mieux.</p>
<p><strong>Comment dépasser cela ?</strong></p>
<p>Comment rendre plus accessible encore, non pas simplement les documents (au sens des fichiers) mais les informations contenues dans ces derniers sans appauvrir les formats de structuration de l&#8217;information. Comment se donner l&#8217;opportunité de construire des outils d&#8217;aide à la recherche permettant de construire &#8211; par exemple &#8211; la notice encyclopédique de George Duby, en présentant, non pas simplement la compilation du signalement de ses articles, ouvrages, conférences, mais aussi les thèmes qu&#8217;il a abordé au cours de sa carrière et en les reliant à des notions, des définitions, des illustrations, des ouvrages d&#8217;autres auteurs ? C&#8217;est tout l&#8217;enjeu de la construction du web de données, cette extension du web dont je parlais dans mon dernier billet. Il nous faut tout d&#8217;abord libérer les données après l&#8217;avoir fait avec les bases de données elles-même.</p>
<p><strong>Comment faire ?</strong></p>
<p>Tout d&#8217;abord un peu d&#8217;histoire. Dans les années 1995-2000, tous les acteurs de la recherche et de la culture ont massivement édité leurs bases de données sur le web, c&#8217;était l&#8217;enjeu du moment : tout le monde voulait mettre sa base en ligne, c&#8217;était un nouveau cycle dans la diffusion des documents (après le minitel, les connexions client/serveurs). Nous sommes entrés, depuis quelques années, dans un nouveau cycle dont la première phase (la première « marche » je préfère dire) a été l&#8217;interopérabilité des bases de données. En parallèle de cette phase, qui se poursuit, nous devons « ouvrir les données ». Quel curieuse expression ! Simplement, il s&#8217;agit d&#8217;exposer les données, dans toutes leurs complexités, en utilisant le cadre de la modélisation en RDF. Pour cela, il nous faut apprendre et développer des modèles de données, faire des choix de vocabulaires documentaires afin de décrire l&#8217;information contenue dans une page web, un billet de blog, un article, un inventaire de fonds d&#8217;archive, un corpus, un thésaurus ou encore une notice de bibliothèque. Pour ouvrir ces données il faut être capable de dire : « tiens ça, c&#8217;est le titre et ça là, c&#8217;est l&#8217;auteur et je te prouve que c&#8217;est bien l&#8217;auteur car je suis capable de le relier, par un principe ouvert, normalisé et connu de tous, à un référentiel (les auteurs du sudoc par exemple) et à une forme de vocabulaire (du mods, du dublin core simple, etc.) » : les documentalistes savent très bien faire cela. Ainsi, ouvrir ses données – participer à la construction du web de données &#8211; cela revient donc à structurer de l&#8217;information avec des règles communes, valables pour tout le monde du web et où donc l&#8217;implicite n&#8217;est pas le bienvenu. Ouvrir ses données au monde c&#8217;est donc vouloir diffuser les données et par uniquement les documents et surtout dire quel choix j&#8217;ai fais pour structurer l&#8217;information. Les documentalistes font (devraient) s&#8217;y régaler.</p>
<p>Avec <a href="http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-web" target="_blank">l&#8217;aide de Got</a>, je vais présenter un exemple simple. Il est possible d&#8217;exprimer selon RDF des données structurées dans une page web écrite en HTML : il s&#8217;agit de la syntaxe RDFa (pour <em>Resource Description Framework – in – attributes</em>). <a href="http://fr.wikipedia.org/wiki/RDFa" target="_blank">RDFa permet donc d&#8217;utiliser la mécanique du RDF tout en utilisant comme support les balises HTML</a>.</p>
<p>Je prends comme exemple, très simple, <a href="http://www.stephanepouyllau.org/webdedonnees/medihal/rdfa/" target="_blank">une photographie et sa notice</a> venant de <a href="http://medihal.archives-ouvertes.fr/" target="_blank">MédiHAL, l&#8217;archive ouverte de photographies scientifiques</a> que j&#8217;ai co-créé et qui est développée par le CCSD et le CN2SV. Au travers de cet exemple, je souhaite montrer qu&#8217;il ne s&#8217;agit pas que de techniques documentaires, ou que de questions informatiques, ou encore que de questions d&#8217;édition : non, il s&#8217;agit de tous cela en même temps. Ainsi, construire le web de données c&#8217;est avant tout réunir plusieurs compétences et métiers pour envisager toutes les aspects.</p>
<p>La consultation avec un simple navigateur web de la notice exemple ne révèle pas la présence d&#8217;une structuration de l&#8217;information selon les principes RDF et pourtant, si l&#8217;on regarde le code source, il y a une structuration, des vocabulaires RDF et des étiquettes structurant l&#8217;information. Ainsi, dans un premier temps, il faut dire que cette page contiendra du RDFa : j&#8217;ai modifié le doctype XHTML. Il est remplaçé par un doctype XHTML+RDFa :</p>
<p><code>&lt;!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd"&gt;</code></p>
<p>Notez ensuite la présence de plusieurs vocabulaires documentaires qui vont nous permettre de structurer l&#8217;information :</p>
<pre><code>&lt;html xml:lang="fr" version="XHTML+RDFa 1.0"
        xmlns="http://www.w3.org/1999/xhtml"
        xmlns:foaf="http://xmlns.com/foaf/0.1/"
        xmlns:dc="http://purl.org/dc/elements/1.1/"
        xmlns:cc="http://creativecommons.org/ns#"
        xmlns:dcterms="http://purl.org/dc/terms/"
        xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
        xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#"
        xmlns:xsd="http://www.w3.org/2001/XMLSchema#"&gt;</code></pre>
<p>Pourquoi ? Puisque nous allons structurer les données contenues dans cette page web, il nous faut dire « ça, c&#8217;est le titre » : <a href="http://www.lespetitescases.net/comprendre-rdf-en-moins-de-5-minutes" target="_blank">il s&#8217;agit de mettre une « étiquette » à une chaine de caractère du titre</a>. Il nous faut construire des triplets RDF qui, par l&#8217;utilisation de prédicats (verbe), relient l&#8217;étiquette (l&#8217;objet) à la chaine de caractère du titre (sujet). Puisque nous devons dire à quel vocabulaire nous faisons référence pour dire « c&#8217;est le titre », nous les déclarons en entête. Vous reconnaitrez sans doute « dc » pour le  dublin core simple (<em>dublin core elements set </em>ou dces), « dcterms » pour le dublin core terms, « cc » pour signaler la présence de données sous licence creative commons, « geo » pour la géolocalisation GPS, « foaf » pour décrire le document qui est ici une notice MédiHAL, etc. Ainsi je déclare là l&#8217;ensemble des vocabulaires documentaires que je vais utiliser ensuite et j&#8217;en donne la référence en ligne : <a href="http://purl.org/dc/elements/1.1/">http://purl.org/dc/elements/1.1/</a> pour le dublin core simple. Ces référentiels sont eux-même décrits et structurés en RDF : ils sont utilisés par tous et sont donc le point de référence, la norme.</p>
<p>Je trouve ensuite le début de ma notice, qui est matérialisée par une balise &lt;div&gt;  :</p>
<p><code>&lt;div typeof="foaf:Image" about="http://medihal.archives-ouvertes.fr/medihal-00501617"&gt;</code></p>
<p>Dans cette balise (fermante à la fin de ma notice), j&#8217;y mentionne que ce qui sera dans la balise &lt;div&gt; est une notice d&#8217;une image et que l&#8217;URL présente dans l&#8217;attribut « about » sera l&#8217;objet auquel se rapporte les informations que je vais structurer (donc ici, un conteneur, une notice, d&#8217;une image). Les informations décrites par la suite se rapportent à cette notice (rôle du &laquo;&nbsp;about&nbsp;&raquo;), ce conteneur, accessible à cette URL. Ma données est complexe, elle est composés d&#8217;une image (qui a plusieurs représentations : plusieurs vignettes, l&#8217;image déposée, etc.) et des métadonnées, voir des commentaires (publics, privés). Pour décrire ce conteneur, j&#8217;utilise <a href="http://xmlns.com/foaf/spec/#term_Image" target="_blank">le vocabulaire foa</a>f qui permet de décrire des ressources, des personnes ou des institutions et je vais utiliser l&#8217;élément foaf:Image. Pour la syntaxe, je vous invite à lire ce <a href="http://www.lespetitescases.net/rdfaiser-votre-blog-2" target="_blank">billet de Got</a> qui présente très en détail et très clairement la syntaxe des CURIEs (ou <em>Compact URIs</em>) dans le monde RDF.</p>
<p>Dans ce &lt;div&gt;, je vais pouvoir structurer l&#8217;information contenue dans la données en utilisant, dans cet exemple, la balise &lt;span&gt; ainsi que quelques attributs : « property » pour caractériser l&#8217;information avec un vocabulaire, « rel » pour relier de l&#8217;information directement au conteneur. Ainsi pour le titre de l&#8217;image, je vais utiliser le dublin core simple (dces), nous aurons :</p>
<p><code>&lt;span property="dc:title"&gt;Madagascar : Vallée de l'Onive aux environs de Tsinjoarivo&lt;/span&gt;</code></p>
<p>Pour l&#8217;image en jpg présentée dans la notice (qui est l&#8217;une des représentations possibles de l&#8217;image) :</p>
<p><code>&lt;span rel="foaf:thumbnail" about="http://medihal.archives-ouvertes.fr/medihal-00501617"&gt;<br />
&lt;img title="Madagascar..." id="thumb320" src="http://medihal.archives-ouvertes.fr/docs/00/50/16/17/archives/thumb320.jpg" border="0" /&gt;&lt;/span&gt;</code></p>
<p>Là, nous caractérisons que le contenu de &lt;img/&gt;, c&#8217;est à dire une image en 320 pixels, est l&#8217;une des versions de l&#8217;image de la notice représentée par «  http://medihal.archives-ouvertes.fr/medihal-00501617 » : il s&#8217;agit d&#8217;une vignette de l&#8217;image d&#8217;ou « foaf:thumbnail ». Dans ce cas, il possible d&#8217;implémenter les attributs rel et about dans la balise &lt;img&gt;. Je l&#8217;ai mis dans un &lt;span&gt; pour plus de clarté. Notez que j&#8217;ai répéré dans ce &lt;span&gt; l&#8217;attribut &laquo;&nbsp;about&nbsp;&raquo;, je n&#8217;y suis pas obligé, il est déjà signalé dans la balise &lt;span&gt; &laquo;&nbsp;mère&nbsp;&raquo;. Ce &lt;span&gt; structurant une version de l&#8217;image (une vignette de 320px de coté), j&#8217;ai préféré ré-indiquer ce &laquo;&nbsp;about&nbsp;&raquo; afin que vous compreniez bien que foaf:thumbnail (vignette) désigne une vignette de l&#8217;image déposée et dont l&#8217;URI est http://medihal.archives-ouvertes.fr/medihal-00501617.</p>
<p>Pour la légende, je vais utiliser le vocabulaire dublin core <em>terms</em>, le plus riche des dublin core avec l&#8217;étiquette dc:abstract (pour résumé) :</p>
<p><code>&lt;span property="dcterms:abstract"&gt;Paysage rural de collines à  proximité de Tsinjoarivo ; Au premier plan le bord de la terrasse de la vallée de l'Onive ; A l'arrière-plan, cultures en terrasse avec des rizières en escaliers, irriguées par un affluent du fleuve&lt;/span&gt;</code></p>
<p>Je pourrais aussi, plus simplement mais en introduisant un peu d&#8217;implicite, utiliser dces avec l&#8217;étiquette dc:description :</p>
<p><code>&lt;span property="dc:description"&gt;Paysage rural de collines à  proximité de Tsinjoarivo ; Au premier plan le bord de la terrasse de la vallée de l'Onive ; A l'arrière-plan, cultures en terrasse avec des rizières en escaliers, irriguées par un affluent du fleuve&lt;/span&gt;</code></p>
<p>Pour exprimer les mots clés, je vais utiliser une nouvelle fois le dces :</p>
<p><code>&lt;span property="dc:subject"&gt;&lt;a href="[lien vers mes mots-clés]"&gt;Madagascar&lt;/a&gt;&lt;/span&gt;</code></p>
<p>Il est possibilité là aussi d&#8217;être plus riche, en reliant mon mot-clés à un référentiel (thésaurus par exemple) en utilisant les vocabulaires sioc et skos pour exprimer des concepts et les liaisons.</p>
<p>Pour la géolocalisation de mon image, je vais utiliser le dublin core terms avec l&#8217;étiquette « spacial », qui va me permettre de relier mon conteneur (foaf:Image) à des valeurs de latitude et de longitude. Ainsi, j&#8217;exprime dans dcterms:spatial une latitude et une longitude issues d&#8217;un GPS ou d&#8217;une géolocalisation en spécifiant que je fais référence au vocabulaire WGS validé par le W3C (geo:lat et geo:long).</p>
<p><code>&lt;span rel="dcterms:spatial"&gt;<br />
&lt;span property="geo:lat" content="-19.644527589975"&gt;&lt;/span&gt;<br />
&lt;span property="geo:long" content="47.709846500067"&gt;&lt;/span&gt;<br />
&lt;/span&gt;</code></p>
<p>Je me limite ici à quelques éléments de cette image (en prenant du DC simple pour être pédagogique), il est possible d&#8217;aller plus loin dans la structuration (en utilisant du DC terms ou d&#8217;autres vocalulaires).</p>
<p><strong>Conclusion</strong></p>
<p>Le web de données est une méthode qui consiste à utiliser le web comme un espace ou les données sont structurées : c&#8217;est à dire que l&#8217;information d&#8217;un document (pdf, jpg, txt, etc.) est cartographiée, repérée, signalée et reliée à des vocabulaires, accessibles eux-même sur le web et dont la structuration est connue et explicitée. C&#8217;est un formidable enjeux pour les documentalistes, les bibliothèques et les ingénieurs et techniciens en <em>digital humanities</em> qui construisent des corpus scientifiques et les diffusent en ligne. Le RDFa est l&#8217;une des techniques, l&#8217;une des mécaniques possible et elle est relativement simple à comprendre car elle s&#8217;inscrit dans une évolution naturelle des choses : une sémantisation de la page web via le code HTML. Il s&#8217;agit d&#8217;une révolution mais qui s&#8217;appuie sur des éléments que tout les professionnels de l&#8217;IST peuvent maitriser. J&#8217;ai toujours pensé et dit que l&#8217;OAI-PMH était (est) la première marche vers le web de données, je pense qu&#8217;RDFa est la deuxième, du moins c&#8217;est un pont très simple pour mieux comprendre RDF et les techniques du web de données.</p>
<p>Stéphane.</p>
<p>Liens utiles pour aller plus loin :</p>
<ul>
<li>Exemple utilisé : <a href="http://www.stephanepouyllau.org/webdedonnees/medihal/rdfa/" target="_blank">http://www.stephanepouyllau.org/webdedonnees/medihal/rdfa/</a></li>
<li>Code source : <a href="http://www.stephanepouyllau.org/webdedonnees/medihal/rdfa/medihal-rdfa.txt" target="_blank">http://www.stephanepouyllau.org/webdedonnees/medihal/rdfa/medihal-rdfa.txt</a></li>
<li>Une <a href="http://www.w3.org/RDF/Validator/ARPServlet?PARSE=Parse+URI%3A+&amp;TRIPLES_AND_GRAPH=PRINT_TRIPLES&amp;FORMAT=PNG_EMBED&amp;URI=http://www.w3.org/2007/08/pyRdfa/extract%3Furi%3Dhttp%3A//www.stephanepouyllau.org/webdedonnees/medihal/rdfa/" target="_blank">vue sur le contenu RDFa</a> de cet exemple.</li>
<li>Comprendre RDF : <a href="http://www.lespetitescases.net/comprendre-rdf-en-moins-de-5-minutes" target="_blank">http://www.lespetitescases.net/comprendre-rdf-en-moins-de-5-minutes</a></li>
<li>Mettre du RDFa dans son blog : <a href="http://www.lespetitescases.net/rdfaiser-votre-blog-1-la-theorie" target="_blank">http://www.lespetitescases.net/rdfaiser-votre-blog-1-la-theorie</a> ; <a href="http://www.lespetitescases.net/rdfaiser-votre-blog-2-la-pratique" target="_blank">http://www.lespetitescases.net/rdfaiser-votre-blog-2-la-pratique</a> ; <a href="http://www.lespetitescases.net/rdfaiser-votre-blog-3-exploitation" target="_blank">http://www.lespetitescases.net/rdfaiser-votre-blog-3-exploitation</a></li>
<li>Vidéo de l&#8217;ADBS : <a href="http://www.adbs.fr/le-web-de-donnees-perspectives-pour-les-metiers-de-l-information-documentation-79361.htm" target="_blank">Le Web de données : perspectives pour les métiers de l&#8217;information documentation</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/401/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Des données brutes 2.0</title>
		<link>http://blog.stephanepouyllau.org/242</link>
		<comments>http://blog.stephanepouyllau.org/242#comments</comments>
		<pubDate>Wed, 15 Jul 2009 17:57:17 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[archives numériques]]></category>
		<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[dublincore]]></category>
		<category><![CDATA[e-rudition]]></category>
		<category><![CDATA[métadonnées]]></category>
		<category><![CDATA[OAI-PMH]]></category>
		<category><![CDATA[web 2.0]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=242</guid>
		<description><![CDATA[L&#8217;administration Américaine a lancé data.gov : une plateforme d&#8217;accès aux données brutes de la santé, l&#8217;environnement, l&#8217;énergie, recherche, éducation. C&#8217;est très (trop?) ambitieux, voir utopique (mais il s&#8217;agit des USA) et d&#8217;ailleurs cet avis est partagé. Mais l&#8217;initiative est là et la plateforme déjà en ligne : il s&#8217;agit d&#8217;un projet hybride entre archives, recherche [...]]]></description>
			<content:encoded><![CDATA[<p>L&#8217;administration Américaine a lancé<a href="http://data.gov" target="_blank"> data.gov</a> : une plateforme d&#8217;accès aux données brutes de la santé, l&#8217;environnement, l&#8217;énergie, recherche, éducation. C&#8217;est très (trop?) ambitieux, voir utopique (mais il s&#8217;agit des USA) et <a href="http://www.christian-faure.net/2009/05/16/ladministration-obama-met-sa-strategie-it-au-coeur-de-sa-nouvelle-politique/" target="_blank">d&#8217;ailleurs cet avis est partagé</a>. Mais l&#8217;initiative est là et la plateforme déjà en ligne : il s&#8217;agit d&#8217;un projet hybride entre archives, recherche et accès. Ce projet, une récente discussion avec <a href="http://www.lespetitescases.net" target="_blank">Got</a>, croisée d&#8217;une journée avec les collègues du Centre de calcul de l&#8217;IN2P3-CNRS (qui héberge beaucoup de données issues des SHS), m&#8217;a conforté sur la notion et la nécessité de réservoirs de données brutes pour la recherche en SHS.</p>
<p>Ces réservoirs existent aujourd&#8217;hui dans les laboratoires de SHS, mais les données qu&#8217;ils contiennent sont souvent encore perçues comme des données &laquo;&nbsp;privés&nbsp;&raquo;, réservées aux chercheurs locaux. Il est vrai qu&#8217;ils les ont collectées ou générées et ce travail n&#8217;est pas réellement reconnu dans le parcours d&#8217;un chercheur alors qu&#8217;il est fondamental. Ces données &laquo;&nbsp;pour la recherche&nbsp;&raquo; ont donc souvent tendance à &laquo;&nbsp;mourir&nbsp;&raquo; au fond de nos disques durs faut d&#8217;une infrastructure double : archivage des données (pour l&#8217;histoire), diffusion des données &laquo;&nbsp;brutes&nbsp;&raquo; et pas forcement éditorialisées dans une publication électronique académique mais mise à disposition de la communauté scientifique comportant un minimum d&#8217;appareil éditorial basé sur le Dublin Core Terms par exemple.  D&#8217;autant que souvent, ces données ont été collectées ou générées sur fonds publics (ne serait ce que le salaire du chercheur).</p>
<p>Bien sur, il faut pondérer ici le fait que certaines données sont sensibles de part leur nature et que la mise à disposition ou la diffusion est complexe et nécessite des barrières mobiles parfois très longues.</p>
<p>En france, il existe des initiatives intéressantes, encore trop peu soutenues financièrement, mais cela avance, cela se structure et des formations, pour les chercheurs et enseignants-chercheurs, voient le jour tel que <a title="Wiki de l'université d'été de l'édition électronique ouverte" href="http://www.digitalhumanities.cnrs.fr/wikis/edelec-shs/index.php/Accueil" target="_blank">l&#8217;université d&#8217;été de l&#8217;édition scientifique ouverte</a>, qui aura lieu en septembre 2009, ou bien<a href="http://www.digitalhumanities.cnrs.fr/wikis/ecole-sources-num/index.php/Accueil" target="_blank"> l&#8217;école thématique des centres nationaux de ressources numériques du CNRS dont le wiki est en ligne</a> avec toutes les communications, les bibliographies numériques, en ligne, etc.</p>
<p>Alors, en ce mois de juillet, j&#8217;ai envie de dire : &laquo;&nbsp;ouvrez vos données à vos collègues et au monde&nbsp;&raquo; et j&#8217;espère aussi, soyons fou, un donnees.gouv.fr ?</p>
<p>Il est temps, dirons certains, que je parte en vacances.</p>
<p>Stéphane.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/242/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Ca, mais si souviens toi, c&#8217;était où déjà ? ou le geocaching scientifique</title>
		<link>http://blog.stephanepouyllau.org/189</link>
		<comments>http://blog.stephanepouyllau.org/189#comments</comments>
		<pubDate>Fri, 26 Dec 2008 17:44:03 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[informatique]]></category>
		<category><![CDATA[géolocalisation]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[mashup]]></category>
		<category><![CDATA[métadonnées]]></category>
		<category><![CDATA[perl]]></category>
		<category><![CDATA[php]]></category>
		<category><![CDATA[xmp]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=189</guid>
		<description><![CDATA[Pour noël, j&#8217;ai eu un GPS ! Ceux qui me connaissent me diront que n&#8217;ayant pas de voiture à Paris, ce n&#8217;est pas très utile. Et pourtant, si l&#8217;ont veut géo-référencer les photos de noël et le déballage des cadeaux par les enfants, cet outil devient très pratique, testons un peu&#8230; J&#8217;ai donc un GPS [...]]]></description>
			<content:encoded><![CDATA[<p>Pour noël, j&#8217;ai eu un GPS ! Ceux qui me connaissent me diront que n&#8217;ayant pas de voiture à Paris, ce n&#8217;est pas très utile. Et pourtant, si l&#8217;ont veut géo-référencer les photos de noël et le déballage des cadeaux par les enfants, cet outil devient très pratique, testons un peu&#8230;</p>
<p><a title="D90+GP-1 de stephane.pouyllau, sur Flickr" href="http://www.flickr.com/photos/stephanepouyllau/3137994093/"><img src="http://farm4.static.flickr.com/3263/3137994093_23ef642c62.jpg" alt="D90+GP-1" width="500" height="375" /></a></p>
<p>J&#8217;ai donc un GPS pour mon <a href="http://imaging.nikon.com/products/imaging/lineup/d90/fr" target="_blank">D90</a> : il s&#8217;agit de l&#8217;unité GP-1, qui se place à la place du flash ou sur le coté. Pour info, dans le <a href="http://www.europe-nikon.com/product/fr_FR/products/broad/1635/overview.html" target="_blank">Nikon P.6000</a>, un compact, le GPS est en standard.</p>
<p>Mes grands-parents, s&#8217;ils étaient en vie, diraient : &laquo;&nbsp;Mais que fait Stéphane, dans le jardin, avec un appareil photographique pointant vers le ciel ?&nbsp;&raquo; Au début, la première capture des satellites est un peu longue : plus de 5 s., c&#8217;est déjà embêtant si vous devez déclencher tout de suite&#8230; passons. En laissant l&#8217;appareil en veille, ça va mieux. Ensuite cela semble assez précis (même dans le jardin), l&#8217;altitude aussi (testé avec un bon vieil altimètre).</p>
<p><a title="D90+GP-1 de stephane.pouyllau, sur Flickr" href="http://www.flickr.com/photos/stephanepouyllau/3137992033/"><img src="http://farm4.static.flickr.com/3124/3137992033_3cc8639363.jpg" alt="D90+GP-1" width="500" height="375" /></a></p>
<p>Clic-clac, les coordonnées et l&#8217;altitude sont bien capturées et incluses dans les méta-données EXIF de l&#8217;image. Avec Exiftool (et tous les outils qui tourne autour), par exemple, il est facile de voir et d&#8217;exporter ces valeurs de positionnement (extrait) dans ExiftoolGUI&#8230;</p>
<p><a title="D90+GPS_1 de stephane.pouyllau, sur Flickr" href="http://www.flickr.com/photos/stephanepouyllau/3138640188/"><img src="http://farm4.static.flickr.com/3210/3138640188_3e1408c5cd.jpg" alt="D90+GPS_1" width="450" height="500" /></a></p>
<p>De les sortir sous la forme d&#8217;un tableau HTML (voir plus bas)&#8230;</p>
<table border="1">
<tbody>
<tr>
<td>EXIF</td>
<td style="text-align: left;">GPSVersionID</td>
<td>2.2.0.0</td>
</tr>
<tr>
<td>EXIF</td>
<td>GPSLatitudeRef</td>
<td>North</td>
</tr>
<tr>
<td>EXIF</td>
<td>GPSLongitudeRef</td>
<td>West</td>
</tr>
<tr>
<td>EXIF</td>
<td>GPSAltitudeRef</td>
<td>Above Sea Level</td>
</tr>
<tr>
<td>EXIF</td>
<td>GPSTimeStamp</td>
<td>11:24:24</td>
</tr>
<tr>
<td>EXIF</td>
<td>GPSSatellites</td>
<td>05</td>
</tr>
<tr>
<td>EXIF</td>
<td>GPSMapDatum</td>
<td></td>
</tr>
<tr>
<td>EXIF</td>
<td>GPSDateStamp</td>
<td>2008:12:25</td>
</tr>
<tr>
<td>Composite</td>
<td>GPSAltitude</td>
<td>36 m Above Sea Level</td>
</tr>
<tr>
<td>Composite</td>
<td>GPSDateTime</td>
<td>2008:12:25 11:24:24</td>
</tr>
<tr>
<td>Composite</td>
<td>GPSLatitude</td>
<td>44 deg 45&#8242; 15.21&#8243; N</td>
</tr>
<tr>
<td>Composite</td>
<td>GPSLongitude</td>
<td>0 deg 34&#8242; 31.58&#8243; W</td>
</tr>
<tr>
<td>Composite</td>
<td>GPSPosition</td>
<td>44 deg 45&#8242; 15.21&#8243; N, 0 deg 34&#8242; 31.58&#8243; W</td>
</tr>
<tr>
<td>Composite</td>
<td>SubSecDateTimeOriginal</td>
<td>2008:12:25 13:21:45.00</td>
</tr>
</tbody>
</table>
<p></p>
<p>&#8230;Et bien entendu, il est très facile d&#8217;exploiter cela avec un outil cartographique en local, tel que l&#8217;excellent <a href="http://www.geosetter.de/en/" target="_blank">GeoSetter</a> dont une version en français est disponible :</p>
<p><a title="D90+GPS_2 de stephane.pouyllau, sur Flickr" href="http://www.flickr.com/photos/stephanepouyllau/3138641032/"><img src="http://farm4.static.flickr.com/3291/3138641032_f12609b930.jpg" alt="D90+GPS_2" width="500" height="313" /></a></p>
<p><a title="D90+GPS_3 de stephane.pouyllau, sur Flickr" href="http://www.flickr.com/photos/stephanepouyllau/3138641916/"><img src="http://farm4.static.flickr.com/3104/3138641916_15b5d686b5.jpg" alt="D90+GPS_3" width="500" height="313" /></a><br />
ou bien via <a href="http://www.flickr.com/photos/stephanepouyllau/3137816926/map/?view=everyones" target="_blank">l&#8217;outil carte de Flickr</a> (là, rien à faire de particulier, les photos sont positionnées par défaut lors du chargement).</p>
<p>Tout cela peut aussi ce faire via son Firefox avec IExif, Dans la monde Google avec Picasa et Google Earth, etc.</p>
<p>Si <a href="http://en.wikipedia.org/wiki/Exchangeable_image_file_format#Problems" target="_blank">le format EXIF vous pose un problème</a>, il est possible de stocker ces données dans du <a href="http://www.loc.gov/standards/mix/" target="_blank">MIX</a>. C&#8217;est évidement plus complexe pour l&#8217;exploitation, du moins pour le grand public.</p>
<p>Extraire ce type de méta-données avec du Perl est très facile : le programme <a href="http://www.sno.phy.queensu.ca/~phil/exiftool/" target="_blank">perl exiftool de Phil Harvey</a> est très bien pour cela : une petit ligne du type <em>&laquo;&nbsp;Exiftool -exif:GPSAltitude -h  img &gt; mes_exifs.html&nbsp;&raquo;</em> et l&#8217;on récupère l&#8217;altitude d&#8217;une série d&#8217;images dans un tableau HTML.</p>
<p>Avec du PHP c&#8217;est possible aussi : <a href="http://fr2.php.net/manual/fr/book.exif.php" target="_blank">il faut charger les extensions php_mbstring et exif (dans cet ordre)</a> dans le php.ini ; ensuite il est possible d&#8217;utiliser la fonction <em><span class="methodname"><a href="http://fr2.php.net/manual/fr/book.exif.php" target="_blank">exif_read_data</a>.</span></em></p>
<p>Bref, bientôt TOUS les appareils géo-tagueront en automatique et l&#8217;on ne comprendra pas pourquoi les photos anciennes ne le sont pas (les documentalistes vont avoir du travail) : ainsi les interfaces d&#8217;intérogations vont évoluer : un fond de carte, des outils de sélection (ronds, carrés, etc.), des plots de couleurs, des requêtes externes, des réponses aux questions qui s&#8217;afficheront sous la forme d&#8217;un chapelet de marqueurs. Au CN2SV, nous avons commencé à le faire des cartes et des atlas anciens, j&#8217;imagine ce que nous allons faire dans quelques années !</p>
<p><a title="Capture d'écran de l'application CN2SV pour les géodonnées de stephane.pouyllau, sur Flickr" href="http://www.flickr.com/photos/stephanepouyllau/1613039316/"><img src="http://farm3.static.flickr.com/2377/1613039316_a1d82ab446.jpg" alt="Capture d'écran de l'application CN2SV pour les géodonnées" width="500" height="313" /></a></p>
<p>Mais j&#8217;y pense&#8230; le temps d&#8217;écrire ce billet et tout cela doit déjà exister, j&#8217;en suis sûr (et en open-source ?). En attendant la suite, j&#8217;espère que <a href="http://www.flickr.com/photos/jacquesperconte/sets/72157610731032923/" target="_blank">les artistes vont trouver des applications moins &laquo;&nbsp;utiles&nbsp;&raquo; que celles décrites ici</a>. Je m&#8217;en retourne à mon mash-up de noël.</p>
<p>Joyeuses fêtes,</p>
<p>Stéphane.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/189/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>La norme OpenURL et la technologie Context Objects in Span (COinS)</title>
		<link>http://blog.stephanepouyllau.org/116</link>
		<comments>http://blog.stephanepouyllau.org/116#comments</comments>
		<pubDate>Sun, 15 Jun 2008 10:37:07 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[COinS]]></category>
		<category><![CDATA[métadonnées]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=116</guid>
		<description><![CDATA[Bonjour, La technologie Context Objects in Span (COinS) permet d&#8217;ajouter dans une page web (billets de blog, résultats d&#8217;une recherche documentaire, liste de références bibliographiques) des méta-informations encodées selon la norme OpenURL. Cette technologie est déjà là depuis un petit moment, le figoblog en parlait déjà en décembre 2006, mais sa démocratisation prendra du temps [...]]]></description>
			<content:encoded><![CDATA[<p><img class="alignright" style="float: right;" src="http://farm3.static.flickr.com/2014/1655424779_a5dddd34fe_m.jpg" alt="" width="240" height="180" /></p>
<p>Bonjour,</p>
<p>La technologie <a href="http://ocoins.info/">Context Objects in Span (COinS)</a> permet d&#8217;ajouter dans une page web (billets de blog, résultats d&#8217;une recherche documentaire, liste de références bibliographiques) des méta-informations encodées selon la norme <a href="http://www.figoblog.org/document207.php" target="_blank">OpenURL</a>. Cette technologie est déjà là depuis un petit moment, <a href="http://www.figoblog.org/document1131.php" target="_blank">le figoblog en parlait déjà en décembre 2006</a>, mais sa démocratisation prendra du temps comme toujours : j&#8217;y consacre à mon tour un billet.</p>
<p>Cela fonctionne par l&#8217;ajout d&#8217;une balise &lt;span&gt; contenant une classe et un titre contenant des informations descriptives du contenu publié en ligne : des méta-données. Il est possible de préparer cette balise span un peu spéciale <a href="http://generator.ocoins.info/">à l&#8217;aide d&#8217;outils en ligne à base de formulaires</a>, mais il est plus judicieux, pour les blogs, d&#8217;utiliser des modules qui font cela automatiquement : <a href="http://dev.zotero.org/wordpress">c&#8217;est le cas pour le moteur WordPress</a>. Mon blog en est d&#8217;ailleurs maintenant équipé. Cela permet, par exemple, pour ceux qui utilisent le gestionnaire de références bibliographiques <a href="http://zotero.org/">Zotero</a> de capturer les méta-données (titre, dates, auteurs, etc.) d&#8217;un billet de blog ou d&#8217;une page web. De nombreux catalogues de références bibliographique utilisent cela : le <a href="http://www.sudoc.abes.fr/" target="_blank">Sudoc</a>,  <a href="http://amazon.fr/" target="_blank">Amazon</a>, ou encore les blogs du portail <a href="http://hypotheses.org/">Hypotheses.org</a>.</p>
<p>La définition du système COinS est claire :</p>
<p>&laquo;&nbsp;The goal is to embed citation metadata into html in such a way that processing agents can discover, process and make use of the metadata. Since an important use of this metadata will be to allow processing agents to make OpenURL hyperlinks for users in libraries (latent OpenURL), the method must allow the metadata to be placed any where in HTML that a link might appear. In the absence of some metadata-aware agent, the embedded metadata must be invisible to the user and innocuous with respect to HTML markup. To meet these requirements, the span element was selected. The NISO OpenURL ContextObject is selected as the specific metadata package. The resulting specification is named &laquo;&nbsp;ContextObject in SPAN&nbsp;&raquo; or COinS for short.&nbsp;&raquo; (source : <a href="http://ocoins.info/" target="_blank">http://ocoins.info</a>).</p>
<p>Une fois encore, un peu comme avec l&#8217;IPTC Core pour les images, il s&#8217;agit d&#8217;embarquer (embed) des méta-données au sein même de la page web qui contient l&#8217;information <a href="http://www.figoblog.org/document207.php" target="_blank">dans un format ouvert et surtout contextuel : OpenURL</a>.</p>
<p>Le span ressemble à cela : [span class="Z3988" title="ctx_ver=Z39.88-2004&#038;<br />
amp;rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Adc&amp;r<br />
fr_id=info%3Asid%2Focoins.info%3Agenerator&amp;r<br />
ft.title=La+d%C3%A9mocratisation+du+XML+documentaire&amp;r<br />
ft.aulast=POUYLLAU&amp;rft.aufirst=St%C3%A9phane&amp;r<br />
ft.subject=IT&amp;rft.source=sp.Blog&amp;rft.date=2008-05-18&amp;r<br />
ft.type=blogPost&amp;rft.format=text&amp;r<br />
ft.identifier=http://blog.stephanepouyllau.org/la-democratisation-du-xml-documentaire&amp;rf<br />
t.language=French"]</p>
<p>A voir comme cela c&#8217;est un peu complexe, mais il s&#8217;agit bien de méta-données, proche du DublinCore d&#8217;ailleurs, encapsulées dans une balise &lt;span&gt;.</p>
<p>COinS est une technologie qui permet une utilisation simple, pour l&#8217;internaute, des e-références : les méta-données. COinS, couplé avec un outil tel que Zotero, peut rendre plus simple la collecte de références bibliographiques disponibles sur le web. Mieux, utilisée dans les blogs, elle les transforme en réservoirs d&#8217;informations&#8230;</p>
<p>Bon dimanche,</p>
<p>Stéphane.</p>
<p>Photo sous licence CC par <a href="http://www.flickr.com/photos/jennieb/" target="_blank">jen-the-librarian</a>.<span id="more-116"></span></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/116/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Utilisation massive de la librairie GD pour PHP : les lettres de Stephen Gray dans le site @.ampere</title>
		<link>http://blog.stephanepouyllau.org/68</link>
		<comments>http://blog.stephanepouyllau.org/68#comments</comments>
		<pubDate>Thu, 30 Nov 2006 08:01:24 +0000</pubDate>
		<dc:creator>pouyllau</dc:creator>
				<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[métadonnées]]></category>
		<category><![CDATA[php]]></category>

		<guid isPermaLink="false">http://www.stephanepouyllau.org/wp/?p=68</guid>
		<description><![CDATA[Bonjour, Dans le site @.ampere (direction ; C. Blondel, CNRS) dont je suis le webmaster, j&#8217;ai placé des lettres de Stephen Gray (voir dans Wikipedia), pour le zoom j&#8217;utilise la GD de PHP, cette librairie est connue mais elle rend bien des services quoiqu&#8217;un peu lente. Je l&#8217;utilise pour le zoom 100% 75% 50% 25% [...]]]></description>
			<content:encoded><![CDATA[<p>Bonjour,<br />
Dans le site <a href="http://www.ampere.cnrs.fr" hreflang="fr">@.ampere</a> (direction ; C. Blondel, CNRS) dont je suis le webmaster, j&#8217;ai placé <a href="http://www.ampere.cnrs.fr/ice/ice_book_detail-fr-img-ampere-ampere_text-73-4.html" hreflang="fr">des lettres de Stephen Gray</a> (voir dans <a href="http://fr.wikipedia.org/wiki/Stephen_Gray" hreflang="fr">Wikipedia</a>), pour le zoom j&#8217;utilise la GD de PHP, cette librairie est connue mais elle rend bien des services quoiqu&#8217;un peu lente. Je l&#8217;utilise pour le zoom 100% 75% 50% 25% mais aussi dans le site du <a href="http://www.cn2sv.fr" hreflang="fr">CN2SV</a> pour le génération d&#8217;images &laquo;&nbsp;vignettes&nbsp;&raquo; à la volée. La GD a été intégré à PHP depuis la version 4.3 et commence à faire du JPEG2000. En complément, il y a surtout la fonction &laquo;&nbsp;iptcparse&nbsp;&raquo; qui permet de lire les méta-données IPTC et même de les mettre à jour avec &laquo;&nbsp;iptcembed&nbsp;&raquo;.<br />
Stéphane.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/68/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>XMP {suite}</title>
		<link>http://blog.stephanepouyllau.org/63</link>
		<comments>http://blog.stephanepouyllau.org/63#comments</comments>
		<pubDate>Sat, 08 Jul 2006 11:54:37 +0000</pubDate>
		<dc:creator>pouyllau</dc:creator>
				<category><![CDATA[archives numériques]]></category>
		<category><![CDATA[métadonnées]]></category>
		<category><![CDATA[xml]]></category>

		<guid isPermaLink="false">http://www.stephanepouyllau.org/wp/?p=63</guid>
		<description><![CDATA[La mise en ligne de documents numérique entraîne, outre la question des droits, toutes une série de questions techniques qui sont la plupart du temps le parent pauvre des projets de numérisation et de mise à disposition. Le format IPTC et aujourd&#8217;hui le framework XMP permettent, par exemple, d&#8217;ajouter des méta-données dans l&#8217;image (XMP &#8211; [...]]]></description>
			<content:encoded><![CDATA[<p>La mise en ligne de documents numérique entraîne, outre la question des droits, toutes une série de questions techniques qui sont la plupart du temps le parent pauvre des projets de numérisation et de mise à disposition. Le format IPTC et aujourd&#8217;hui le framework XMP permettent, par exemple, d&#8217;ajouter des méta-données dans l&#8217;image (XMP &#8211; <em>eXtensible Metadata Platform</em> &#8211; repose sur une version simple de RDF). C&#8217;est à dire que les méta-données sont &laquo;&nbsp;encapsulées&nbsp;&raquo;. Encapsuler&#8230;Encapsuler : voici un terme technique qui paraît simple mais qui peut avoir des conséquences sur la pérennité des méta-informations. Le Grand ROBERT de la langue française nous dit :</p>
<blockquote><p><q><strong>Encapsuler</strong> [ãkapsyle] v.tr. &#8211; 1889, Renan, au fig. ; de en-, et capsule.</q><q> Techn. Enfermer dans un capsule [...].</q></p></blockquote>
<p>Le fait &laquo;&nbsp;d&#8217;enfermer&nbsp;&raquo; doit attirer l&#8217;attention du fournisseur de ressources visuelles (photographiques dans notre exemple) sur la possibilité de &laquo;&nbsp;libérer&nbsp;&raquo; les méta-données ainsi encapsulés. C&#8217;est à dire de pouvoir dans le futur les lire, les exploiter en même temps que l&#8217;image, sans avoir de contraintes.<br />
Il est important de ne s&#8217;appuyer <ins>que</ins> sur normes libres (si possible, attention XMP est fortement lié à Adobe Inc. alors que l&#8217;IPTC Core est développé par <em>International Press and Telecommunications Council (1965)</em> et succède à l&#8217;IPTC &laquo;&nbsp;classique&nbsp;&raquo;), internationnales et reconnues par les professionels de l&#8217;information (iconographes, documentalistes, etc). <img src="/images/pixvue_capture.png" /><br />
Avec un outil simple, tel que PixVue (voir ci-dessus), il est facile à l&#8217;aide de la souris et du clavier d&#8217;ajouter des &laquo;&nbsp;méta&nbsp;&raquo; dans une image suivant la norme IPTC.</p>
<p>Bonne fin de semaine,</p>
<p>Stéphane.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/63/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Schéma XMP / IPTC parseur</title>
		<link>http://blog.stephanepouyllau.org/62</link>
		<comments>http://blog.stephanepouyllau.org/62#comments</comments>
		<pubDate>Wed, 28 Jun 2006 23:14:09 +0000</pubDate>
		<dc:creator>pouyllau</dc:creator>
				<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[iptc]]></category>
		<category><![CDATA[métadonnées]]></category>
		<category><![CDATA[xml]]></category>
		<category><![CDATA[xmp]]></category>

		<guid isPermaLink="false">http://www.stephanepouyllau.org/wp/?p=62</guid>
		<description><![CDATA[Bonsoir, Dans le développement du CN2SV, j&#8217;ai programmé un parser XMP, IPTC à partir de la librairie &#171;&#160;PHP JPEG Metadata Toolkit&#160;&#187; de E. Hunter. Le schéma XMP est prometteur même s&#8217;il est lié à Adobe. Mais la programmation d&#8217;un programme en php lisant les méta-données IPTC est facile et la technologie est mure aujourd&#8217;hui. L&#8217;IPTC [...]]]></description>
			<content:encoded><![CDATA[<p>Bonsoir,</p>
<p>Dans le développement du CN2SV, j&#8217;ai programmé un parser XMP, IPTC à partir de la librairie &laquo;&nbsp;PHP JPEG Metadata Toolkit&nbsp;&raquo; de E. Hunter. Le schéma XMP est prometteur même s&#8217;il est lié à Adobe. Mais la programmation d&#8217;un programme en php lisant les méta-données IPTC est facile et la technologie est mure aujourd&#8217;hui. L&#8217;IPTC a adopté XMP comme schéma de la toute dernière version de son standard de description des photographies : IPTC Core (<a hreflang="en" href="http://www.iptc.org/IPTC4XMP/">http://www.iptc.org/IPTC4XMP/</a>). Avec l&#8217;utilisation massive des appareils photos numériques, qui truffent leurs images de méta-données, il est temps d&#8217;offrir aux utilisateurs d&#8217;intergiciel (middlewares) en php, jsp, java, asp, la possibilité de lire ces données et de les enrichir.</p>
<p>Un simple parseur IPTC en PHP (PHP 3 &gt;= 3.0.6, PHP 4, PHP 5) :</p>
<pre> <code>function output_iptc_data( $image_path ) {
   $size = getimagesize ( $image_path, $info);
    if(is_array($info)) {
     $iptc = iptcparse($info["APP13"]);
     foreach (array_keys($iptc) as $s) {
     $c = count ($iptc[$s]);
      for ($i=0; $i &lt;$c; $i++) {
       echo $s.' = '.$iptc[$s][$i].' - ';
      }
     }
    }
  }</code></pre>
<p>(source : <a hreflang="fr" href="http://fr.php.net/manual/fr/function.iptcparse.php">site www.php.net</a>)</p>
<p>Nous allons intégrer un lecteur/editeur IPTC/XMP à Iceberg. Je tiens d&#8217;ailleurs à remercier Romain et Frédéric, les deux développeurs contractuels du CN2SV qui font un travail formidable.</p>
<p>A bientôt,<br />
Stéphane.</p>
<p style="font-size: 9px">&laquo;&nbsp;IPTC Core&nbsp;&raquo; est la propriété intellectuelle de IPTC. XMP, Photoshop and Creative Suite (CS) sont des marques commerciales de la société Adobe Systems Inc.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/62/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
	</channel>
</rss>

