<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>sp.Blog</title>
	<atom:link href="http://blog.stephanepouyllau.org/feed" rel="self" type="application/rss+xml" />
	<link>http://blog.stephanepouyllau.org</link>
	<description>le blog de Stéphane Pouyllau</description>
	<lastBuildDate>Mon, 26 Mar 2012 16:39:15 +0000</lastBuildDate>
	<language>fr</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.2</generator>
		<item>
		<title>A quoi sert la dame du CDI ?</title>
		<link>http://blog.stephanepouyllau.org/538</link>
		<comments>http://blog.stephanepouyllau.org/538#comments</comments>
		<pubDate>Mon, 26 Mar 2012 16:35:06 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[en général]]></category>
		<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[sources historiques]]></category>
		<category><![CDATA[wikipédia]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=538</guid>
		<description><![CDATA[Dans le débat qui anime &#171;&#160;l&#8217;initiative&#160;&#187; : comment j’ai pourri le web ; je signale un billet intéressant sur Métro-boulot-catho. Je ne partage pas la conclusion qui consiste à dire : &#171;&#160;on ne profite vraiment du numérique que quand on a formé son esprit sans lui&#160;&#187; car je pense que ce n&#8217;est pas le support [...]]]></description>
			<content:encoded><![CDATA[<p>Dans le débat qui anime &laquo;&nbsp;l&#8217;initiative&nbsp;&raquo; : <a href="http://www.laviemoderne.net/lames-de-fond/009-comment-j-ai-pourri-le-web.html"><em>comment j’ai pourri le web</em></a> ; je signale un <a href="http://www.metro-boulot-catho.fr/2012/03/pourrir-le-web-pour-nourrir-la-reflexion/">billet</a> intéressant sur Métro-boulot-catho. Je ne partage pas la conclusion qui consiste à dire : &laquo;&nbsp;<em>on ne profite vraiment du numérique que quand on a formé son esprit sans lui</em>&nbsp;&raquo; car je pense que ce n&#8217;est pas le support qui est en cause, mais la façon dont &laquo;&nbsp;le net&nbsp;&raquo; est envisagé à l’école et dans l&#8217;enseignement. Nous sommes là dans cas un caricatural il me semble mais posant la question. Ainsi je trouve très pertinente la remarque dans le billet de Métro-boulot-catho :</p>
<p><em>&laquo;&nbsp;Alors oui, il faut une vraie formation à l’information. Mais à moins de créer une discipline documentation, ce qui n’est pas à l’ordre du jour5, cette formation ne peut se faire que dans le cadre des autres disciplines. Ce collègue, au lieu de se donner tout ce mal pour piéger ses élèves, n’aurait-il pas mieux fait d’aller rencontrer son collègue profdoc pour monter une séquence digne de ce nom ? D’emmener ses élèves deux ou trois heures au CDI, pour les faire réfléchir par eux-mêmes aux raisons qui les conduisent à utiliser Internet sans discernement ? Initier à l’information, c’est ce pour quoi les profdocs choisissent ce métier. Ce collègue va-t-il reconnaître que nous avons des propositions à lui faire ?&nbsp;&raquo;</em></p>
<p>Les métiers de l&#8217;information, la documentation en particulier, ont effectivement des propositions à faire et d&#8217;ailleurs pas que pour les profs et leurs élèves&#8230; je pense aussi aux chercheurs, aux informaticiens, etc. dans mon domaine. Comme je l&#8217;ai souvent dit, il faut faire au moins 50% du chemin vers la question de l&#8217;autre.</p>
<p>Stéphane.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/538/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Les corpus au pays des modules</title>
		<link>http://blog.stephanepouyllau.org/520</link>
		<comments>http://blog.stephanepouyllau.org/520#comments</comments>
		<pubDate>Thu, 22 Dec 2011 18:48:18 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[content management system]]></category>
		<category><![CDATA[ICEberg]]></category>
		<category><![CDATA[interopérabilité]]></category>
		<category><![CDATA[métadonnées]]></category>
		<category><![CDATA[OAI-PMH]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=520</guid>
		<description><![CDATA[Dans un billet récent, Alexandre Moatti, faisait quelques remarques sur la bibliothèque numérique de l&#8217;Institut. Dans son texte, il fait référence à ICEberg, un logiciel que j&#8217;ai créé en 2002-2003 afin de proposer un outil de mise en ligne de corpus numériques. ICEberg a évolué avec le temps et il a été ré-écrit 3 fois [...]]]></description>
			<content:encoded><![CDATA[<p>Dans un <a href="http://bibnum.over-blog.com/article-bibliotheque-numerique-de-l-institut-de-france-92053375.html">billet récent</a>, <a href="http://fr.wikipedia.org/wiki/Alexandre_Moatti">Alexandre Moatti</a>, faisait quelques remarques sur la bibliothèque numérique de l&#8217;Institut. Dans son texte, il fait référence à ICEberg, un logiciel que j&#8217;ai créé en 2002-2003 afin de proposer un outil de mise en ligne de corpus numériques. <a href="http://blog.stephanepouyllau.org/54">ICEberg</a> a évolué avec le temps et il a été ré-écrit 3 fois depuis 2002.<br />
C&#8217;est normal, les outils en ligne (les applications web) sont très vite obsolètes : les briques permettant de les construire (PHP, Python, Jquery, etc.) évoluent en permanence et contraignent donc les développeurs et webmasters à faire régulièrement des nouvelles moutures de leurs programmes. Depuis la généralisation des systèmes de gestion de contenu (CMS) de 2eme et 3eme génération se sont ajoutées aux couches basses (PHP, MySQL, version d&#8217;Apache ou d&#8217;IIS) une kyrielle de modules qui ont la fâcheuse tendance à ne plus être compatibles avec le noyau du CMS après parfois quelques semaines seulement.<br />
Dans certains cas, des modules importants ont été incorporés dans le noyau ; mais pour beaucoup de fonctionnalités, le recours à de nouveaux modules répondant à des besoins toujours nouveaux (OAI-PMH, &laquo;&nbsp;<a href="http://zotero.org">zotero</a> inside&nbsp;&raquo;, galeries d&#8217;images, etc.) est devenu un automatisme pour les webmasters : &laquo;&nbsp;oh, il doit y avoir un module qui fait cela&nbsp;&raquo;. Dans certains cas, le nombre de modules est déjà très important alors que l&#8217;outil lui-même vient tout juste de passer en version 1.0. Si la qualité des modules et leur nombre peuvent être des signes de la vitalité d&#8217;un projet, il faut cependant faire attention à bien anticiper la maintenance sur le moyen terme (je dis bien moyen terme, tant le long terme n&#8217;est pas compatible avec l&#8217;obsolescence des outils web je pense).<br />
Confier de façon exclusive à un module en version béta par exemple, l&#8217;interopérabilité OAI-PMH des métadonnées de son corpus, veut dire que l&#8217;on prend un risque à moyen terme, si le module n&#8217;est plus maintenu pour x. raison(s). Je ne dis pas qu&#8217;il ne faut pas l&#8217;utiliser, mais il faut avoir conscience du risque et donc avoir des solutions de remplacement. Il faut faire de la veille. Pour illustrer cela, l&#8217;animation et la veille faite par l&#8217;équipe d&#8217;<a href="http://www.openedition.org">Open Edition</a> sur les modules de <a href="http://hypotheses.org">la plate-forme hypotheses.org</a> est exemplaire : les modules demandés par les blogueurs sont testés, évalués puis le cas échéants proposés dans les blogs. Cependant, à moyen terme, cela n&#8217;enlève pas l&#8217;obsolescence technique des modules, mais permet d&#8217;anticiper l&#8217;évolution. La veille est donc l&#8217;indispensable compagnon des administrateurs de sites et bibliothèques.</p>
<p>Mais au delà, je me pose la question de la limite des CMS dans le contexte de la recherche par projets (c&#8217;est à dire avec des ruptures de charges). Les bibliothèques scientifiques, universitaires et de recherche devraient développer des structures de conservation des corpus numériques incluant, outre l&#8217;archivage pérenne des données, la conservation de la structuration intellectuelle du corpus (structuration des bases de données, manuels de saisie, publications associé aux données, schéma de métadonnées, etc.). Encore une fois, c&#8217;est par l&#8217;association des métiers et le passage de responsabilité entre les acteurs du domaine que la pérennité deviendra réelle.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/520/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Interopérabilité autour de l&#8217;édition électronique de la correspondance d&#8217;Eugène Delacroix</title>
		<link>http://blog.stephanepouyllau.org/496</link>
		<comments>http://blog.stephanepouyllau.org/496#comments</comments>
		<pubDate>Sun, 23 Oct 2011 17:09:21 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[correspondance]]></category>
		<category><![CDATA[Eugène Delacroix]]></category>
		<category><![CDATA[flux]]></category>
		<category><![CDATA[interopérabilité]]></category>
		<category><![CDATA[OAI-PMH]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=496</guid>
		<description><![CDATA[Le Centre André Chastel (Université de Paris-Sorbonne, Paris IV, CNRS, Ministère de la Culture et de la Communication) propose une édition électronique de la correspondance d&#8217;Eugène Delacroix (1798-1863). Accessible sur le site www.correspondance-delacroix.fr, le site est très clair et fonctionnel : il y a un moteur de recherche, un index des noms de personnes, des [...]]]></description>
			<content:encoded><![CDATA[<p>Le Centre André Chastel (Université de Paris-Sorbonne, Paris IV, CNRS, Ministère de la Culture et de la Communication) propose une édition électronique de la correspondance d&#8217;<span property="foaf:person" about="http://dbpedia.org/resource/Eug%C3%A8ne_Delacroix">Eugène Delacroix</span> (1798-1863). Accessible sur le site <a title="correspondance d'E. Delacroix" href="http://www.correspondance-delacroix.fr" target="_blank">www.correspondance-delacroix.fr</a>, le site est très clair et fonctionnel : il y a un moteur de recherche, un index des noms de personnes, des liens offrent la possibilité de naviguer dans le corpus. La visualisation des lettres est aussi très intéressante : fac-similés (flash, mais visualisation de l&#8217;image jpg sous ipad par exemple), transcriptions, notices biographiques, annotations, etc. Le projet semble très bien mené et rentre dans le mouvement des éditions électroniques de correspondances (littéraires, <a href="http://www.correspondances.cnrs.fr" target="_blank">scientifiques</a>, etc.). Ce projet a été financé par l&#8217;Agence nationale de la recherche en 2006 (appel Corpus).</p>
<p>On peut cependant regretter d&#8217;avoir à faire à un site &laquo;&nbsp;clos&nbsp;&raquo;.</p>
<p>Je m&#8217;explique : les éditeurs ont conçu un site très riche et bien pensé, mais ils n&#8217;ont pas mis en place de politique de flux de diffusion (RSS, Atom) permettant par exemple de suivre, depuis un outil de veille, les mises à jour des annotations afin de suivre les débats des spécialistes. C&#8217;est dommage car le site se veut vivant : &laquo;&nbsp;<em>&#8230;grâce à la mise en ligne,</em> [les transcriptions et annotations]<em> seront toujours susceptibles de modifications et d’ajouts</em>&nbsp;&raquo; est-il précisé dans <a title="le projet" href="http://www.correspondance-delacroix.fr/contributions/le-projet/" target="_blank">la présentation du projet</a>. Quel est le système de transcriptions qui a été utilisé ? <a href="http://www.tei-c.org">Text Encoding Initiative</a> ? Nous ne le savons pas : c&#8217;est dommage car cela aurait marqué un peu la préoccupation des éditeurs en matière d&#8217;archivage des transcriptions (même si TEI n&#8217;est pas parfait, c&#8217;est déjà au moins du XML). Autre manque : alors qu&#8217;un effort a été visiblement fait pour rendre citable les url des lettres (indépendance des liens vis à vis du système de publication), il n&#8217;est pas fait état d&#8217;un hypothétique entrepôt OAI-PMH permettant de moissonner les métadonnées des lettres de Delacroix afin de les diffuser dans les portail tel OAIster, Gallica ou ISIDORE, comme c&#8217;est le cas pour <a href="http://www.rechercheisidore.fr/search/?source=10670.3/yj9pj7" target="_blank">les correspondances d&#8217;André-Marie Ampère</a> ou encore <a href="http://gallica.bnf.fr/Search?ArianeWireIndex=index&amp;p=1&amp;lang=FR&amp;q=buffon" target="_blank">Buffon</a>. Est-ce une volonté des éditeurs ? un oubli par manque d&#8217;information (OAI-PMH reste tout de même assez mal connu) ? Je ne sais pas. Mais, je pense qu&#8217;il est toujours dommage de ne pas disséminer les contenus d&#8217;une édition électronique d&#8217;une œuvre scientifique, littéraire ou artistique vers des portails thématiques ou disciplinaires afin de communiquer plus largement les sources de la recherche et de les rapprocher d&#8217;autres ressources. Globalement, le corpus est certes utilisable mais est-il réutilisable ? Je l&#8217;espère. En tout cas, il me tarde de voir signaler les échanges épistolaires d&#8217;Eugène Delacroix dans <a href="http://rechercheisidore.fr" target="_blank">ISIDORE</a> (qui contient déjà <a href="http://www.rechercheisidore.fr/search?q=eug%C3%A8ne+delacroix">256 ressources sur ce dernier</a>).</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/496/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Bielefeld Academic Search Engine</title>
		<link>http://blog.stephanepouyllau.org/488</link>
		<comments>http://blog.stephanepouyllau.org/488#comments</comments>
		<pubDate>Sun, 03 Jul 2011 08:47:55 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[en général]]></category>
		<category><![CDATA[dublincore]]></category>
		<category><![CDATA[OAI-PMH]]></category>
		<category><![CDATA[RDF]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=488</guid>
		<description><![CDATA[Le portail BASE (Bielefeld Academic Search Engine) est un aggrégateur OAI-PMH moissonnant 1890 entrepôts OAI dans le monde (au 2 juillet 2011) et donnant accès à 28.911.265 notices. Utilisant Solr et le système d&#8217;opac VuFind, BASE est accessible via un site web très clair, rapide et fonctionnel. Sans proposer, comme dans ISIDORE, un enrichissement des [...]]]></description>
			<content:encoded><![CDATA[<p>Le portail <a href="http://www.base-search.net">BASE</a> (Bielefeld Academic Search Engine) est un aggrégateur OAI-PMH moissonnant 1890 entrepôts OAI dans le monde (au 2 juillet 2011) et donnant accès à 28.911.265 notices. Utilisant Solr et le système d&#8217;opac <a href="http://vufind.org/">VuFind</a>, BASE est accessible via un site web très clair, rapide et fonctionnel. Sans proposer, comme dans <a href="http://rechercheisidore.fr">ISIDORE</a>, un enrichissement des métadonnées à l&#8217;aide de référentiels, ni l&#8217;indexation du texte intégral des données jointes aux notices OAI, BASE est un outil très performant qui fait partie des fournisseurs de services. &laquo;&nbsp;Fournisseurs de services&nbsp;&raquo;&#8230; cette expression, un peu obscure je trouve, désigne le plus souvent les portails documentaires moissonnant des métadonnées selon le protocole OAI-PMH. Après <a title="OAISter" href="http://www.oclc.org/oaister/" target="_blank">OAIster</a> (aujourd&#8217;hui dissout dans l&#8217;offre d&#8217;OCLC), <a title="SC" href="http://en.scientificcommons.org/" target="_blank">Scientificcommons.org</a>, BASE a ses adeptes. En tous cas, ce projet conforte certains choix que nous avons fait dans ISIDORE : la mise en place d&#8217;un annuaire des entrepôts moissonnés (&laquo;&nbsp;<em>A <a href="http://base.ub.uni-bielefeld.de/en/about_sources_date_dn.php?menu=2">data resources inventory</a> provides transparency in the searches</em>&laquo;&nbsp;, voir dans &laquo;&nbsp;<a href="http://base.ub.uni-bielefeld.de/en/index.php" target="_blank">About BASE</a>&laquo;&nbsp;) ou encore la notion de web profond ou invisible &laquo;&nbsp;<em>Discloses web resources of the &laquo;&nbsp;Deep Web&nbsp;&raquo;, which are ignored               by commercial search engines or get lost in the vast quantity of hits.</em>&laquo;&nbsp;. Bien sur, la notion de facettes, mais calculées uniquement sur les contenus des métadonnées moissonnées : <em>&laquo;&nbsp;Refine your search result&nbsp;&raquo; options               (authors, subject headings, year, resources and language)</em>.</p>
<p>Limité à OAI-PMH, et donc à des métadonnées proposées sous la forme d&#8217;atomes sans relief, ce type de portail, comme ISIDORE d&#8217;ailleurs, devra évoluer car il est toujours un peu frustrant de ne pas naviguer dans des données en &laquo;&nbsp;relief&nbsp;&raquo;. ISIDORE, avec son<em> SPARQL end point</em> RDF contenant plus de 40 millions de triplets RDF, va déjà un peu plus loin, mais il nous faut imaginer des nouveaux systèmes de navigation et de signalement pour ces informations structurées en RDF.</p>
<p>Stéphane.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/488/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>ISIDORE : valorisons les données des sciences humaines et sociales</title>
		<link>http://blog.stephanepouyllau.org/466</link>
		<comments>http://blog.stephanepouyllau.org/466#comments</comments>
		<pubDate>Mon, 04 Apr 2011 08:50:41 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[en général]]></category>
		<category><![CDATA[isidore]]></category>
		<category><![CDATA[linked data]]></category>
		<category><![CDATA[OAI-PMH]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[rdfa]]></category>
		<category><![CDATA[web of data]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=466</guid>
		<description><![CDATA[Aujourd&#8217;hui, j&#8217;ai le plaisir de participer au lancement officiel d&#8217;ISIDORE, la plateforme de recherche dans les données numériques de la recherche en sciences humaines et sociales. Réalisée par le très grand équipement Adonis du CNRS, ISIDORE est une production collective qui a associé depuis plus de deux ans des acteurs publics et des acteurs privés [...]]]></description>
			<content:encoded><![CDATA[<p>Aujourd&#8217;hui, j&#8217;ai le plaisir de participer au lancement officiel d&#8217;<a href="http://www.rechercheisidore.fr">ISIDORE</a>, la plateforme de recherche dans les données numériques de la recherche en sciences humaines et sociales. Réalisée par le <a href="http://www.tge-adonis.fr">très grand équipement Adonis</a> du CNRS, ISIDORE est une production collective qui a associé depuis plus de deux ans des acteurs publics et des acteurs privés au sein d&#8217;un marché de réalisation. Public tout d&#8217;abord : ISIDORE est un projet qui est la matérialisation concrète du projet fondateur du TGE Adonis : donner accès à de l&#8217;information, ouvrir des données, rendre visible la production des chercheurs et les données qu&#8217;ils utilisent pour travailler. Au sein du TGE Adonis un grand nombre de collègues ont travaillé pour ce projet, ils ont défini le projet, l&#8217;ont argumenté, le réalise aujourd&#8217;hui : c&#8217;est un travail d&#8217;équipe, long, complexe, parfois périlleux car il faut faire acte de pédagogie et de pragmatisme technique. Je vous invite à consulter ISIDORE, à le critiquer pour le faire évoluer car un outil tel que celui-ci doit évoluer en permanence. Je veux simplement souligner le très grand professionnalisme des collègues, partenaires industriels, qui ont partagé avec moi l&#8217;ensemble de la conception/réalisation de ce projet depuis mon arrivée au TGE en avril 2009 : Yannick, Benoit, Ariane, Nadine, Jean-Luc, puis Richard et Jean-Luc, Sophie, Shadia, L&#8217;équipe de la maitrise d&#8217;œuvre avec un immense respect pour <a href="http://www.ccsd.cnrs.fr/equipe.html">Laurent</a> tout d&#8217;abord, puis Daniel, Loic, Philippe, enfin tous les collègues du CNRS qui ont participé, soutenu, critiqué, aidé. Coté prestataires, je souligne le très grand professionnalisme des équipes ont travaillé avec nous et bien sur merci à Bruno, Jean-Louis, Fabrice et <a href="http://www.lespetitescases.net">Gautier</a> sans qui ISIDORE ne serait pas ISIDORE. Merci à tous !!</p>
<p>Stéphane.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/466/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Thésaurus et web de données : l&#8217;exemple du Thésaurus W</title>
		<link>http://blog.stephanepouyllau.org/461</link>
		<comments>http://blog.stephanepouyllau.org/461#comments</comments>
		<pubDate>Sat, 02 Apr 2011 16:04:03 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[web sémantique]]></category>
		<category><![CDATA[archives]]></category>
		<category><![CDATA[linked data]]></category>
		<category><![CDATA[référentiels]]></category>
		<category><![CDATA[thésaurus]]></category>
		<category><![CDATA[web de données]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=461</guid>
		<description><![CDATA[Les archives de France proposent depuis quelques semaines selon les principes du web de données et du linked data le Thésaurus pour l&#8217;indexation des archives locales qui remplace l&#8217;édition 1997 du Thésaurus W et la version 2000 des listes d&#8217;autorité &#171;&#160;actions&#160;&#187;, &#171;&#160;typologie documentaire&#160;&#187; et &#171;&#160;contexte historique&#160;&#187;. Un site web très clair a été réalisé pour [...]]]></description>
			<content:encoded><![CDATA[<p>Les archives de France proposent depuis quelques semaines selon les principes du web de données et du linked data le <em><a href="http://www.archivesdefrance.culture.gouv.fr/thesaurus/">Thésaurus pour l&#8217;indexation des archives locales</a></em> qui <em>remplace l&#8217;édition 1997 du Thésaurus W et la version 2000 des listes d&#8217;autorité &laquo;&nbsp;actions&nbsp;&raquo;, &laquo;&nbsp;typologie documentaire&nbsp;&raquo; et &laquo;&nbsp;contexte historique&nbsp;&raquo;</em>. Un site web très clair a été réalisé pour l&#8217;occasion : il offre la possibilité de consulter le thésaurus bien sur, d&#8217;en télécharger une version RDF/XML mais surtout de <a href="http://www.archivesdefrance.culture.gouv.fr/thesaurus/sparql">l&#8217;interroger via le langage SPARQL</a> qui est le langage de requête des données structurées en RDF. Ce point d&#8217;accès, on le nomme SPARQL end point (point d&#8217;accès SPARQL), est illustré de requêtes de démonstration permettant aux débutants en SPARQL d&#8217;être un peu autonome dans ce monde encore nouveau. Cette initiative est importante : elle ouvre des données publiques, elle permet de s&#8217;appuyer sur les référentiels des Archives de France pour qualifier des données tiers et donc construire des applications web riches. Dans le projet ISIDORE, nous avons d&#8217;ailleurs utilisé la liste d&#8217;autorités &laquo;&nbsp;contexte historique&nbsp;&raquo; afin d&#8217;accrocher les notices ISIDORE à des périodes historiques. Ce site est un très bel exemple de l&#8217;utilisation des méthodes du web de données pour les données publiques.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/461/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>La correspondance d&#8217;André-Marie Ampère structurée avec RDFa</title>
		<link>http://blog.stephanepouyllau.org/429</link>
		<comments>http://blog.stephanepouyllau.org/429#comments</comments>
		<pubDate>Tue, 15 Feb 2011 12:22:00 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[web sémantique]]></category>
		<category><![CDATA[content management system]]></category>
		<category><![CDATA[drupal]]></category>
		<category><![CDATA[histoire des sciences]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[rdfa]]></category>
		<category><![CDATA[web de données]]></category>
		<category><![CDATA[wordpress]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=429</guid>
		<description><![CDATA[J&#8217;ai RDFaisé la correspondance d&#8217;André-Marie Ampère (1775-1836) éditée en ligne sur le site @.Ampère et l&#8217;histoire de l&#8217;électricité créé par Christine Blondel (Chercheuse au CNRS) et auquel j&#8217;ai participé en 2008/2009. Cette édition électronique, réalisée avec l&#8217;aide de Delphine Usal (CNRS) et Marie-Hélène Wronecki (contractuelle au CNRS) permet de mieux connaitre la vie de ce [...]]]></description>
			<content:encoded><![CDATA[<p>J&#8217;ai RDFaisé la <a title="correspondance d'André-Marie Ampère" href="http://www.ampere.cnrs.fr/correspondance" target="_blank">correspondance d&#8217;André-Marie Ampère</a> (1775-1836) éditée en ligne sur le site <a href="http://www.ampere.cnrs.fr" target="_blank">@.Ampère et l&#8217;histoire de l&#8217;électricité</a> créé par Christine Blondel (Chercheuse au CNRS) et auquel j&#8217;ai participé en 2008/2009. Cette édition électronique, réalisée avec l&#8217;aide de Delphine Usal (CNRS) et Marie-Hélène Wronecki (contractuelle au CNRS) permet de mieux connaitre la vie de ce savant du XIXe siècle. Les éditeurs la présente ainsi :</p>
<p><em>La Correspondance d&#8217;Ampère regroupe les lettres qu&#8217;il a reçues et qu&#8217;il a envoyées. Elle offre un éclairage exceptionnel sur la vie personnelle, professionnelle et intellectuelle d&#8217;un des savants français majeurs du début du XIXe siècle. Plus de 1100 lettres sont actuellement accessibles en ligne.</em></p>
<p>Ce corpus de données, limité mais assez complexe, m&#8217;a semblé être intéressant pour réaliser un travail de structuration utilisant RDFa (voir le billet sur <a href="http://blog.stephanepouyllau.org/401">MédiHAL et le RDFa</a>). J&#8217;espère que d&#8217;autres sites web diffusant des corpus historiques s&#8217;engageront dans l&#8217;implémentation/structuration de l&#8217;information selon les principes du RDF.</p>
<p>C&#8217;est un exemple, permettant via <a href="http://rechercheisidore.fr/search/?source=10670.3/60hefr">ISIDORE</a> de montrer l&#8217;intérêt de l&#8217;utilisation du RDF dans les corpus en ligne (j&#8217;en profite pour signaler un<a href="http://ubelly.com/2011/01/rdfa-in-practice-part-1-wordpress-and-drupal/"> tutoriel en anglais</a> sur la question des structures RDFa dans wordpress et drupal qui me semble très bien fait et tout à fait intéressant). Mais d&#8217;autres projets sont en cours, par exemple : le <a href="http://www.philosciences.org/">Système d’information en philosophie des sciences</a> (ou SIPS) qui sera donc, j&#8217;espère très bientôt, dans ISIDORE.</p>
<p>Bonne navigation structurée à tous !</p>
<p>Stéphane.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/429/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Accompagner la recherche</title>
		<link>http://blog.stephanepouyllau.org/447</link>
		<comments>http://blog.stephanepouyllau.org/447#comments</comments>
		<pubDate>Mon, 03 Jan 2011 11:31:17 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[archives ouvertes]]></category>
		<category><![CDATA[édition électronique]]></category>
		<category><![CDATA[interopérabilité]]></category>
		<category><![CDATA[linked data]]></category>
		<category><![CDATA[OAI-PMH]]></category>
		<category><![CDATA[web of data]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=447</guid>
		<description><![CDATA[Bonne année 2011 à tous ! Le numérique change les métiers de l&#8217;information scientifique et technique et de la communication. Il y a quelques semaines, les ingénieurs, les assistants ingénieurs et les techniciens du CNRS travaillant dans le secteur des sciences humaines et sociales étaient réunis à Paris pour une journée d&#8217;étude dans laquelle j&#8217;ai [...]]]></description>
			<content:encoded><![CDATA[<p>Bonne année 2011 à tous !</p>
<p>Le numérique change les métiers de l&#8217;information scientifique et technique et de la communication. Il y a quelques semaines, les ingénieurs, les assistants ingénieurs et les techniciens du CNRS travaillant dans le secteur des sciences humaines et sociales étaient réunis à Paris pour <a href="http://www.cnrs.fr/inshs/recherche/bapf-2010.htm" target="_blank">une journée d&#8217;étude</a> dans laquelle j&#8217;ai eu le plaisir de présenter <a href="http://medihal.archives-ouvertes.fr" target="_blank">MédiHAL</a>. Je trouve cela très bien car il se créé ainsi une dynamique entre les personnes et les équipes. En discutant avec les collègues j&#8217;ai pu mesurer la nécessiter de passer rapidement <a href="http://www.lespetitescases.net/antilope-sur-le-Web-est-elle-un-document" target="_blank">d&#8217;un web de document</a> à un web des données scientifiques fondé sur les principes du web de donnée (dont le <a href="http://fr.wikipedia.org/wiki/Resource_Description_Framework">RDF</a>) et du linked data (la généralisation des <a href="http://fr.wikipedia.org/wiki/Uniform_Resource_Identifier">URI</a>). Ce qui m&#8217;a le plus frappé est le besoin, clairement exprimé maintenant, de mettre à disposition des données numériques en grande quantité tout en préservant le besoin de qualité de ces données.</p>
<p>Ce qui est également important, c&#8217;est la prise de conscience collective que maintenant il est possible de mettre en place des grands réservoirs de données, des bibliothèques de matériaux imprimés, manuscrits, photos, etc. et de le faire dans un cadre de travail standardisé, respectant des normes de description et s&#8217;interconnectant avec plusieurs outils d&#8217;éditions, de recherche, de traitement de l&#8217;information. La construction d&#8217;un web des données scientifiques, en SHS, est en marche et il s&#8217;intègre dans la construction du web de données général au sens du W3C. Ce web de données scientifiques n&#8217;est pas fermé sur lui-même, il est (et doit être) interopérable avec le reste du web de données. J&#8217;espère que le mouvement va s&#8217;accentuer, se développer.</p>
<p>Dans quelques années, les ingénieurs, assistants ingénieurs, techniciens du monde de la recherche scientifique et de l&#8217;enseignement supérieur, pourront construire des applications, des bases de données, des portails qui iront puiser de l&#8217;information directement dans le web. Ils iront interroger simultanément de multiples &laquo;&nbsp;triple stores&nbsp;&raquo; que sont ces grosses bases de données et réservoirs contenant de l&#8217;information interconnectée.</p>
<p>Lors de cette journée d&#8217;étude j&#8217;ai été aussi frappé de l&#8217;interaction entre les acteurs présentant des projets, plateformes, outils, méthodes : tous les projets sont interconnectés entre eux et à plusieurs niveaux ; les données aussi sont interopérables, entre elles, mais aussi vers l&#8217;extérieur, avec des données du monde entier.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/447/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Les données numériques des SHS entrent dans le web de données</title>
		<link>http://blog.stephanepouyllau.org/436</link>
		<comments>http://blog.stephanepouyllau.org/436#comments</comments>
		<pubDate>Thu, 09 Dec 2010 19:34:44 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[web sémantique]]></category>
		<category><![CDATA[dublincore]]></category>
		<category><![CDATA[interopérabilité]]></category>
		<category><![CDATA[isidore]]></category>
		<category><![CDATA[linked data]]></category>
		<category><![CDATA[métadonnées]]></category>
		<category><![CDATA[OAI-PMH]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[sciences humaines et sociales]]></category>
		<category><![CDATA[sources historiques]]></category>
		<category><![CDATA[web of data]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=436</guid>
		<description><![CDATA[Avec l&#8217;ouverture d&#8217;isidore (réalisée par le très grand équipement Adonis du CNRS) les données numériques des sciences humaines et sociales entre dans le web de données et vont bientôt rejoindre le linking open data cloud diagram ou &#171;&#160;Lod&#160;&#187; maintenu par Richard Cyganiak (DERI, NUI Galway) and Anja Jentzsch (Freie Universität Berlin), en tous cas, je [...]]]></description>
			<content:encoded><![CDATA[<p>Avec l&#8217;ouverture d&#8217;<a title="isidore" href="http://www.rechercheisidore.fr" target="_blank">isidore</a> (réalisée par le <a href="http://www.tge-adonis.fr">très grand équipement Adonis</a> du CNRS) les données numériques des sciences humaines et sociales entre dans le web de données et vont bientôt rejoindre le <a title="lod" href="http://richard.cyganiak.de/2007/10/lod/" target="_blank"><em>linking open data cloud diagram</em></a> ou &laquo;&nbsp;Lod&nbsp;&raquo; maintenu par <a href="http://richard.cyganiak.de/#me">Richard Cyganiak</a> (<a href="http://www.deri.ie/">DERI, NUI Galway</a>) and <a href="http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/team/JentzschAnja.html">Anja Jentzsch</a> (<a href="http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/">Freie Universität Berlin</a>), en tous cas, je l&#8217;espère.</p>
<p>Isidore est une plateforme de recherche permettant la recherche d&#8217;information dans les données numériques des SHS, quelles soient sources pour faire de la recherche ou bien publications des résultats de la recherche. J&#8217;ai le plaisir de co-diriger ce projet avec <a href="http://panini.u-paris10.fr/jlm/" target="_blank">Jean-Luc Minel</a> dans le cadre de l&#8217;équipe du <a title="TGE Adonis" href="http://www.tge-adonis.fr" target="_blank">Adonis</a>, le très grand équipement du <a title="CNRS" href="http://www.cnrs.fr">Centre national de la recherche scientifique</a>.</p>
<p>Je profite de ce petit billet &laquo;&nbsp;auto-promotionnel&nbsp;&raquo; pour remercier Gautier Poupeau (alias <a href="http://www.lespetitescases.net">Got)</a> sans qui ce projet n&#8217;aurait pas pu être conçu et réalisé ainsi que toute l&#8217;équipe du centre pour la communication scientifique directe (<a title="CCSD" href="http://www.ccsd.cnrs.fr/spip.php?rubrique6" target="_blank">Laurent Capelli, Philippe  Correia, Loic Comparet, Yannick Barborini et Daniel Charnay</a>) qui participe à ce beau projet.</p>
<p>Isidore moissonne des métadonnées et des données selon les protocoles OAI-PMH, des signalements d&#8217;actualités via RSS et Atom, des données structurées selon RDFa et peut se connecter à des catalogues de bibliothèques SRU/SRW (z3950). Isidore enrichit ces données en les croisant, en les qualifiant avec des thésaurii, des référentiels, des listes d&#8217;auteurs et les ré-exposent selon les principes du linked data. Pour utiliser ces données, un site web a été créé : www.rechercheisidore.fr. Vous pouvez donc interroger les articles de <a href="http://revues.org" target="_blank">Revues.org</a>, <a href="http://cairn.info">Cairn</a>, <a href="http://www.persee.fr" target="_blank">Persée</a>, les ouvrages, textes, images de <a href="http://gallica.bnf.fr">Gallica</a>, <a href="http://halshs.archives-ouvertes.fr" target="_blank">HALSHS</a>, <a href="http://medihal.archives-ouvertes.fr" target="_blank">MédiHAL</a> avec un seul formulaire et avec des liens entre toutes ces données.</p>
<p>Dans isidore, les métadonnées sont transformées en RDF, ainsi les données des shs entrent dans le web de données.</p>
<p>Mais nous sommes en version béta, alors le travail continu.</p>
<p>Stéphane.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/436/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Construire le web de données pour les shs : comment utiliser RDFa ?</title>
		<link>http://blog.stephanepouyllau.org/401</link>
		<comments>http://blog.stephanepouyllau.org/401#comments</comments>
		<pubDate>Mon, 30 Aug 2010 07:11:54 +0000</pubDate>
		<dc:creator>Stéphane POUYLLAU</dc:creator>
				<category><![CDATA[digital humanities]]></category>
		<category><![CDATA[web sémantique]]></category>
		<category><![CDATA[archives]]></category>
		<category><![CDATA[métadonnées]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[rdfa]]></category>
		<category><![CDATA[web of data]]></category>

		<guid isPermaLink="false">http://blog.stephanepouyllau.org/?p=401</guid>
		<description><![CDATA[Le web est l&#8217;un des vecteurs principaux de la diffusion des données de recherche en sciences humaines et sociales. Il permet de diffuser et d&#8217;éditer presque tous les matériaux utilisés par le chercheur et l&#8217;enseignant : de l&#8217;archive ou la bibliothèque à la publication électronique en passant par le séminaire, le colloque, la revues et le [...]]]></description>
			<content:encoded><![CDATA[<p>Le web est l&#8217;un des vecteurs principaux de la diffusion des données de recherche en sciences humaines et sociales. Il permet de diffuser et d&#8217;éditer presque tous les matériaux utilisés par le chercheur et l&#8217;enseignant : de l&#8217;archive ou la bibliothèque à la publication électronique en passant par le séminaire, le colloque, la revues et le livre. L&#8217;utilisation du web comme outil d&#8217;édition, de publication et de diffusion a permis de démultiplier les accès aux documents et à l&#8217;information. Mais depuis 20 ans, l&#8217;effort a plus porté sur la mise à disposition de documents numériques (ouvrages, articles, corpus) que sur la structuration de l&#8217;information contenue dans ces documents : il est vrai que l&#8217;essor des moteurs de recherche traditionnels depuis les années 90 (d&#8217;Altavista à Google) ont permis d&#8217;atteindre et de s&#8217;y « retrouver » dans ces milliards de documents qui sont sur le web aujourd&#8217;hui. En revanche, la publication électronique des contenus des bases de données – les données elles-même qui ont toujours leurs propres structurations, pose encore des questions et des difficultés qui font que le web, s&#8217;il est plein de documents et relativement vide de données et d&#8217;informations structurées. Ainsi, les outils d&#8217;exploitation des documents que nous utilisons aujourd&#8217;hui, tel les moteurs de recherche, fonctionnent sur des réservoirs de documents encore trop cloisonnés. Ainsi, construire une page web d&#8217;information sur l&#8217;historien Georges Duby nécessite toujours d&#8217;adresser plusieurs questions (requêtes) à plusieurs moteurs de recherche (généralistes et spécialisés) ou à plusieurs formulaires de bases de données et cela même si, depuis dix ans, les techniques de l&#8217;interopérabilité ont fait de très grand progrès. Ce web « cloisonné » ne permet pas aux machines de travailler et certaines parties du web deviennent invisibles aux moteurs de recherche et même parfois aux humains (qui s&#8217;est déjà retrouver devant un formulaire de bdd en ligne un peu froid ?). Bien sur, un homme peut le faire, à la main, mais s&#8217;il veut se faire aider de machine, pour gagner du temps ou mieux, traiter plus de données, cela devient assez complexe. Surtout pour un chercheur qui ne maitrise pas forcement le SQL et dont ce n&#8217;est pas le métier. Ainsi, les données numériques sont bien rangées dans de multiples bases de données ou silot, mais nous n&#8217;avons construit que de simples petits « judas » afin de les regarder et l&#8217;éditorialisation des données ne fait pas tout, pis, elle cache parfois, sous une couche « cosmétique » (cela dit souvent nécessaire), une faible structuration des données. La faible structuration des données freine très souvent les modes de  pérennisation de ces dernières donc la possibilité de leur ré-exploitation future. Il nous faut faire mieux.</p>
<p><strong>Comment dépasser cela ?</strong></p>
<p>Comment rendre plus accessible encore, non pas simplement les documents (au sens des fichiers) mais les informations contenues dans ces derniers sans appauvrir les formats de structuration de l&#8217;information. Comment se donner l&#8217;opportunité de construire des outils d&#8217;aide à la recherche permettant de construire &#8211; par exemple &#8211; la notice encyclopédique de George Duby, en présentant, non pas simplement la compilation du signalement de ses articles, ouvrages, conférences, mais aussi les thèmes qu&#8217;il a abordé au cours de sa carrière et en les reliant à des notions, des définitions, des illustrations, des ouvrages d&#8217;autres auteurs ? C&#8217;est tout l&#8217;enjeu de la construction du web de données, cette extension du web dont je parlais dans mon dernier billet. Il nous faut tout d&#8217;abord libérer les données après l&#8217;avoir fait avec les bases de données elles-même.</p>
<p><strong>Comment faire ?</strong></p>
<p>Tout d&#8217;abord un peu d&#8217;histoire. Dans les années 1995-2000, tous les acteurs de la recherche et de la culture ont massivement édité leurs bases de données sur le web, c&#8217;était l&#8217;enjeu du moment : tout le monde voulait mettre sa base en ligne, c&#8217;était un nouveau cycle dans la diffusion des documents (après le minitel, les connexions client/serveurs). Nous sommes entrés, depuis quelques années, dans un nouveau cycle dont la première phase (la première « marche » je préfère dire) a été l&#8217;interopérabilité des bases de données. En parallèle de cette phase, qui se poursuit, nous devons « ouvrir les données ». Quel curieuse expression ! Simplement, il s&#8217;agit d&#8217;exposer les données, dans toutes leurs complexités, en utilisant le cadre de la modélisation en RDF. Pour cela, il nous faut apprendre et développer des modèles de données, faire des choix de vocabulaires documentaires afin de décrire l&#8217;information contenue dans une page web, un billet de blog, un article, un inventaire de fonds d&#8217;archive, un corpus, un thésaurus ou encore une notice de bibliothèque. Pour ouvrir ces données il faut être capable de dire : « tiens ça, c&#8217;est le titre et ça là, c&#8217;est l&#8217;auteur et je te prouve que c&#8217;est bien l&#8217;auteur car je suis capable de le relier, par un principe ouvert, normalisé et connu de tous, à un référentiel (les auteurs du sudoc par exemple) et à une forme de vocabulaire (du mods, du dublin core simple, etc.) » : les documentalistes savent très bien faire cela. Ainsi, ouvrir ses données – participer à la construction du web de données &#8211; cela revient donc à structurer de l&#8217;information avec des règles communes, valables pour tout le monde du web et où donc l&#8217;implicite n&#8217;est pas le bienvenu. Ouvrir ses données au monde c&#8217;est donc vouloir diffuser les données et par uniquement les documents et surtout dire quel choix j&#8217;ai fais pour structurer l&#8217;information. Les documentalistes font (devraient) s&#8217;y régaler.</p>
<p>Avec <a href="http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-web" target="_blank">l&#8217;aide de Got</a>, je vais présenter un exemple simple. Il est possible d&#8217;exprimer selon RDF des données structurées dans une page web écrite en HTML : il s&#8217;agit de la syntaxe RDFa (pour <em>Resource Description Framework – in – attributes</em>). <a href="http://fr.wikipedia.org/wiki/RDFa" target="_blank">RDFa permet donc d&#8217;utiliser la mécanique du RDF tout en utilisant comme support les balises HTML</a>.</p>
<p>Je prends comme exemple, très simple, <a href="http://www.stephanepouyllau.org/webdedonnees/medihal/rdfa/" target="_blank">une photographie et sa notice</a> venant de <a href="http://medihal.archives-ouvertes.fr/" target="_blank">MédiHAL, l&#8217;archive ouverte de photographies scientifiques</a> que j&#8217;ai co-créé et qui est développée par le CCSD et le CN2SV. Au travers de cet exemple, je souhaite montrer qu&#8217;il ne s&#8217;agit pas que de techniques documentaires, ou que de questions informatiques, ou encore que de questions d&#8217;édition : non, il s&#8217;agit de tous cela en même temps. Ainsi, construire le web de données c&#8217;est avant tout réunir plusieurs compétences et métiers pour envisager toutes les aspects.</p>
<p>La consultation avec un simple navigateur web de la notice exemple ne révèle pas la présence d&#8217;une structuration de l&#8217;information selon les principes RDF et pourtant, si l&#8217;on regarde le code source, il y a une structuration, des vocabulaires RDF et des étiquettes structurant l&#8217;information. Ainsi, dans un premier temps, il faut dire que cette page contiendra du RDFa : j&#8217;ai modifié le doctype XHTML. Il est remplaçé par un doctype XHTML+RDFa :</p>
<p><code>&lt;!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd"&gt;</code></p>
<p>Notez ensuite la présence de plusieurs vocabulaires documentaires qui vont nous permettre de structurer l&#8217;information :</p>
<pre><code>&lt;html xml:lang="fr" version="XHTML+RDFa 1.0"
        xmlns="http://www.w3.org/1999/xhtml"
        xmlns:foaf="http://xmlns.com/foaf/0.1/"
        xmlns:dc="http://purl.org/dc/elements/1.1/"
        xmlns:cc="http://creativecommons.org/ns#"
        xmlns:dcterms="http://purl.org/dc/terms/"
        xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
        xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#"
        xmlns:xsd="http://www.w3.org/2001/XMLSchema#"&gt;</code></pre>
<p>Pourquoi ? Puisque nous allons structurer les données contenues dans cette page web, il nous faut dire « ça, c&#8217;est le titre » : <a href="http://www.lespetitescases.net/comprendre-rdf-en-moins-de-5-minutes" target="_blank">il s&#8217;agit de mettre une « étiquette » à une chaine de caractère du titre</a>. Il nous faut construire des triplets RDF qui, par l&#8217;utilisation de prédicats (verbe), relient l&#8217;étiquette (l&#8217;objet) à la chaine de caractère du titre (sujet). Puisque nous devons dire à quel vocabulaire nous faisons référence pour dire « c&#8217;est le titre », nous les déclarons en entête. Vous reconnaitrez sans doute « dc » pour le  dublin core simple (<em>dublin core elements set </em>ou dces), « dcterms » pour le dublin core terms, « cc » pour signaler la présence de données sous licence creative commons, « geo » pour la géolocalisation GPS, « foaf » pour décrire le document qui est ici une notice MédiHAL, etc. Ainsi je déclare là l&#8217;ensemble des vocabulaires documentaires que je vais utiliser ensuite et j&#8217;en donne la référence en ligne : <a href="http://purl.org/dc/elements/1.1/">http://purl.org/dc/elements/1.1/</a> pour le dublin core simple. Ces référentiels sont eux-même décrits et structurés en RDF : ils sont utilisés par tous et sont donc le point de référence, la norme.</p>
<p>Je trouve ensuite le début de ma notice, qui est matérialisée par une balise &lt;div&gt;  :</p>
<p><code>&lt;div typeof="foaf:Image" about="http://medihal.archives-ouvertes.fr/medihal-00501617"&gt;</code></p>
<p>Dans cette balise (fermante à la fin de ma notice), j&#8217;y mentionne que ce qui sera dans la balise &lt;div&gt; est une notice d&#8217;une image et que l&#8217;URL présente dans l&#8217;attribut « about » sera l&#8217;objet auquel se rapporte les informations que je vais structurer (donc ici, un conteneur, une notice, d&#8217;une image). Les informations décrites par la suite se rapportent à cette notice (rôle du &laquo;&nbsp;about&nbsp;&raquo;), ce conteneur, accessible à cette URL. Ma données est complexe, elle est composés d&#8217;une image (qui a plusieurs représentations : plusieurs vignettes, l&#8217;image déposée, etc.) et des métadonnées, voir des commentaires (publics, privés). Pour décrire ce conteneur, j&#8217;utilise <a href="http://xmlns.com/foaf/spec/#term_Image" target="_blank">le vocabulaire foa</a>f qui permet de décrire des ressources, des personnes ou des institutions et je vais utiliser l&#8217;élément foaf:Image. Pour la syntaxe, je vous invite à lire ce <a href="http://www.lespetitescases.net/rdfaiser-votre-blog-2" target="_blank">billet de Got</a> qui présente très en détail et très clairement la syntaxe des CURIEs (ou <em>Compact URIs</em>) dans le monde RDF.</p>
<p>Dans ce &lt;div&gt;, je vais pouvoir structurer l&#8217;information contenue dans la données en utilisant, dans cet exemple, la balise &lt;span&gt; ainsi que quelques attributs : « property » pour caractériser l&#8217;information avec un vocabulaire, « rel » pour relier de l&#8217;information directement au conteneur. Ainsi pour le titre de l&#8217;image, je vais utiliser le dublin core simple (dces), nous aurons :</p>
<p><code>&lt;span property="dc:title"&gt;Madagascar : Vallée de l'Onive aux environs de Tsinjoarivo&lt;/span&gt;</code></p>
<p>Pour l&#8217;image en jpg présentée dans la notice (qui est l&#8217;une des représentations possibles de l&#8217;image) :</p>
<p><code>&lt;span rel="foaf:thumbnail" about="http://medihal.archives-ouvertes.fr/medihal-00501617"&gt;<br />
&lt;img title="Madagascar..." id="thumb320" src="http://medihal.archives-ouvertes.fr/docs/00/50/16/17/archives/thumb320.jpg" border="0" /&gt;&lt;/span&gt;</code></p>
<p>Là, nous caractérisons que le contenu de &lt;img/&gt;, c&#8217;est à dire une image en 320 pixels, est l&#8217;une des versions de l&#8217;image de la notice représentée par «  http://medihal.archives-ouvertes.fr/medihal-00501617 » : il s&#8217;agit d&#8217;une vignette de l&#8217;image d&#8217;ou « foaf:thumbnail ». Dans ce cas, il possible d&#8217;implémenter les attributs rel et about dans la balise &lt;img&gt;. Je l&#8217;ai mis dans un &lt;span&gt; pour plus de clarté. Notez que j&#8217;ai répéré dans ce &lt;span&gt; l&#8217;attribut &laquo;&nbsp;about&nbsp;&raquo;, je n&#8217;y suis pas obligé, il est déjà signalé dans la balise &lt;span&gt; &laquo;&nbsp;mère&nbsp;&raquo;. Ce &lt;span&gt; structurant une version de l&#8217;image (une vignette de 320px de coté), j&#8217;ai préféré ré-indiquer ce &laquo;&nbsp;about&nbsp;&raquo; afin que vous compreniez bien que foaf:thumbnail (vignette) désigne une vignette de l&#8217;image déposée et dont l&#8217;URI est http://medihal.archives-ouvertes.fr/medihal-00501617.</p>
<p>Pour la légende, je vais utiliser le vocabulaire dublin core <em>terms</em>, le plus riche des dublin core avec l&#8217;étiquette dc:abstract (pour résumé) :</p>
<p><code>&lt;span property="dcterms:abstract"&gt;Paysage rural de collines à  proximité de Tsinjoarivo ; Au premier plan le bord de la terrasse de la vallée de l'Onive ; A l'arrière-plan, cultures en terrasse avec des rizières en escaliers, irriguées par un affluent du fleuve&lt;/span&gt;</code></p>
<p>Je pourrais aussi, plus simplement mais en introduisant un peu d&#8217;implicite, utiliser dces avec l&#8217;étiquette dc:description :</p>
<p><code>&lt;span property="dc:description"&gt;Paysage rural de collines à  proximité de Tsinjoarivo ; Au premier plan le bord de la terrasse de la vallée de l'Onive ; A l'arrière-plan, cultures en terrasse avec des rizières en escaliers, irriguées par un affluent du fleuve&lt;/span&gt;</code></p>
<p>Pour exprimer les mots clés, je vais utiliser une nouvelle fois le dces :</p>
<p><code>&lt;span property="dc:subject"&gt;&lt;a href="[lien vers mes mots-clés]"&gt;Madagascar&lt;/a&gt;&lt;/span&gt;</code></p>
<p>Il est possibilité là aussi d&#8217;être plus riche, en reliant mon mot-clés à un référentiel (thésaurus par exemple) en utilisant les vocabulaires sioc et skos pour exprimer des concepts et les liaisons.</p>
<p>Pour la géolocalisation de mon image, je vais utiliser le dublin core terms avec l&#8217;étiquette « spacial », qui va me permettre de relier mon conteneur (foaf:Image) à des valeurs de latitude et de longitude. Ainsi, j&#8217;exprime dans dcterms:spatial une latitude et une longitude issues d&#8217;un GPS ou d&#8217;une géolocalisation en spécifiant que je fais référence au vocabulaire WGS validé par le W3C (geo:lat et geo:long).</p>
<p><code>&lt;span rel="dcterms:spatial"&gt;<br />
&lt;span property="geo:lat" content="-19.644527589975"&gt;&lt;/span&gt;<br />
&lt;span property="geo:long" content="47.709846500067"&gt;&lt;/span&gt;<br />
&lt;/span&gt;</code></p>
<p>Je me limite ici à quelques éléments de cette image (en prenant du DC simple pour être pédagogique), il est possible d&#8217;aller plus loin dans la structuration (en utilisant du DC terms ou d&#8217;autres vocalulaires).</p>
<p><strong>Conclusion</strong></p>
<p>Le web de données est une méthode qui consiste à utiliser le web comme un espace ou les données sont structurées : c&#8217;est à dire que l&#8217;information d&#8217;un document (pdf, jpg, txt, etc.) est cartographiée, repérée, signalée et reliée à des vocabulaires, accessibles eux-même sur le web et dont la structuration est connue et explicitée. C&#8217;est un formidable enjeux pour les documentalistes, les bibliothèques et les ingénieurs et techniciens en <em>digital humanities</em> qui construisent des corpus scientifiques et les diffusent en ligne. Le RDFa est l&#8217;une des techniques, l&#8217;une des mécaniques possible et elle est relativement simple à comprendre car elle s&#8217;inscrit dans une évolution naturelle des choses : une sémantisation de la page web via le code HTML. Il s&#8217;agit d&#8217;une révolution mais qui s&#8217;appuie sur des éléments que tout les professionnels de l&#8217;IST peuvent maitriser. J&#8217;ai toujours pensé et dit que l&#8217;OAI-PMH était (est) la première marche vers le web de données, je pense qu&#8217;RDFa est la deuxième, du moins c&#8217;est un pont très simple pour mieux comprendre RDF et les techniques du web de données.</p>
<p>Stéphane.</p>
<p>Liens utiles pour aller plus loin :</p>
<ul>
<li>Exemple utilisé : <a href="http://www.stephanepouyllau.org/webdedonnees/medihal/rdfa/" target="_blank">http://www.stephanepouyllau.org/webdedonnees/medihal/rdfa/</a></li>
<li>Code source : <a href="http://www.stephanepouyllau.org/webdedonnees/medihal/rdfa/medihal-rdfa.txt" target="_blank">http://www.stephanepouyllau.org/webdedonnees/medihal/rdfa/medihal-rdfa.txt</a></li>
<li>Une <a href="http://www.w3.org/RDF/Validator/ARPServlet?PARSE=Parse+URI%3A+&amp;TRIPLES_AND_GRAPH=PRINT_TRIPLES&amp;FORMAT=PNG_EMBED&amp;URI=http://www.w3.org/2007/08/pyRdfa/extract%3Furi%3Dhttp%3A//www.stephanepouyllau.org/webdedonnees/medihal/rdfa/" target="_blank">vue sur le contenu RDFa</a> de cet exemple.</li>
<li>Comprendre RDF : <a href="http://www.lespetitescases.net/comprendre-rdf-en-moins-de-5-minutes" target="_blank">http://www.lespetitescases.net/comprendre-rdf-en-moins-de-5-minutes</a></li>
<li>Mettre du RDFa dans son blog : <a href="http://www.lespetitescases.net/rdfaiser-votre-blog-1-la-theorie" target="_blank">http://www.lespetitescases.net/rdfaiser-votre-blog-1-la-theorie</a> ; <a href="http://www.lespetitescases.net/rdfaiser-votre-blog-2-la-pratique" target="_blank">http://www.lespetitescases.net/rdfaiser-votre-blog-2-la-pratique</a> ; <a href="http://www.lespetitescases.net/rdfaiser-votre-blog-3-exploitation" target="_blank">http://www.lespetitescases.net/rdfaiser-votre-blog-3-exploitation</a></li>
<li>Vidéo de l&#8217;ADBS : <a href="http://www.adbs.fr/le-web-de-donnees-perspectives-pour-les-metiers-de-l-information-documentation-79361.htm" target="_blank">Le Web de données : perspectives pour les métiers de l&#8217;information documentation</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://blog.stephanepouyllau.org/401/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

