Archives de l’auteur : Stéphane POUYLLAU

Retour sur le colloque « Nouvelles archives numériques au Proche-Orient : le son, l’image, le film et le web »

J’ai participé au colloque « Nouvelles archives numériques au Proche-Orient : le son, l’image, le film et le web » organisé à Beyrouth par l’Institut français du Liban, des universités Aix-Marseille Universitéet l’Université libanaise, laMaison méditerranéenne des sciences de l’homme(MMSH) et l’Institut français du Proche-Orient. Le thème du colloque m’a plongé pendant quelques jours sur les méthodes de constitution des matériaux de recherche issus des terrains des historien·nes, géographes, archéologues, sociologues et ethnologues.

Ouverture du colloque « Nouvelles archives numériques au Proche-Orient : le son, l’image, le film et le web » à la bibliothèque nationale du Liban — Photo S. Pouyllau, 29 mai 2019.

Le programme, très riche, m’a fait pas mal réfléchir sur les besoins méthodologiques et d’outillage pour les chercheurs et doctorants. C’est encouragement et une piqure de rappel, du terrain, pour un travail un peu réflexif sur ce que nous avons monté depuis 10-15 autour des infrastructures de recherche (OpenEdition, Huma-Num, etc.). Les « nouvelles archives » (matériaux des réseaux sociaux, vidéos Youtube, sites Web, etc.) sont des traces fragiles : en raison des politiques des plateformes, en raison des techniques utilisées pour les construire mais aussi et enfin en raison des pratiques des chercheur·es (gestion de leurs stockages, de leurs bases de données, etc). 

Conférence introductive de Carla Eddé.

Elles sont fragiles aussi — naturellement, par les aléas politiques et géopolitiques d’une région complexe. En ce sens la conférence très dynamique de Carla Eddé (historienne et vice-rectrice pour les relations internationales à l’Université Saint-Joseph) sur « Archives, mémoire, histoire » a très bien montré la construction actuelle (et la non-construction) de la mémoire du Liban contemporain, de la mémoire de la guerre civile du Liban (1975-1990) autour de la question « des gouts de l’archive » dans le Liban d’aujourd’hui. En ce sens j’y ai vu des connexions avec le programme de recherche « Le goût de l’archive à l’ère numérique ».

La fragilité des données numériques et leurs mises en archive, ont été particulièrement bien illustrés par les communications de Cécile Boex (EHESS, Césor) sur « Archiver les vidéos vernaculaires de la révolte et du conflit en Syrie : enjeux éthiques et politiques » et Zara Fournier (doctorante en géographie à l’université de Tours, labo CITERES) sur « Désirs d’ailleurs et d’avant : les militants de la mémoire et le Web au Sud du Liban ». En conclusion, la question de la compréhension et de la maitrise des méthodes numériques pour la bonne gestion des données de terrain, mais aussi la compréhension des interconnexions des outils forgés a été très bien résumée par Kamel Doraï, directeur du département des études contemporaines de l’Ifpo. 

Ponctué de projection de film, dont l’impressionnant « Tadmor » de Monika Borgmann et Lokman Slim (bientôt en salle à Paris). J’espère que le colloque donnera lieu à une publication d’actes, ou des enregistrments qui ont été effectué par Jean-Christophe Peyssard (Ifpo) et Véronique Ginouvès (MMSH).

Le programme détaillé du colloque est disponible sur le site : https://nanpo.sciencesconf.org.

Document structuré et écriture numérique : le bilan

Le 21 janvier dernier, j’ai terminé mon « cours » le cadre du master Documents électroniques et flux d’informations (dit « DEFI ») à l’université de Paris Nanterre. En juillet dernier, j’avais fait un petit billet pour annoncer le plan du cours et donner quelques pistes de lecture et d’outils que je voulais proposer aux étudiants. J’avais décidé alors de revoir entièrement la structure du cours et d’aborder plus directement et par la pratique l’utilisation des données et métadonnées structurées, collecter des informations via des API, des interfaces SPARQL, etc. Après cette dernière séance du 21 janvier, il est temps de faire un petit bilan.

Utilisation de Jupyter Hub le 17 décembre 2018 avec les masters DEFI 2018-2019. Photo : Stéphane Pouyllau

Vous l’avez sans doute noté, j’ai mis cours entre guillemets dans la première phrase. En effet, premier retour, je ne pense pas avoir fait un cours, ni dans sa forme, ni sur le fond. Première limite donc, la durée. En 24h d’enseignement, c’est très (trop) court pour faire vrai un cours je pense. L’expérience de cette année montre qu’il aurait fallu un peu plus (disons 35h) pour avoir le temps d’aborder correctement l’ensemble des questions, faire d’autres développements en Python ou utiliser des outils tel que OpenRefine (que j’avais envisagé en juillet), le tout en inscrivant ça dans l’histoire du numérique, du Web, etc. Nous l’avons abordé, mais trop sommairement. D’un coté je tiens a ce que mon enseignement reste pratique avec «les mains dedans».

Deuxième limite de mon « cours » fut sa densité : l’agrégation ou plutôt l’intégration des notions de données/documents structurés (XML, stérilisation RDF), les API, Python (dans Jupyter) et l’outil Jupyter lui même en 24h… C’était un peu ambitieux sans doute. Là, j’ai vraiment pu mesurer la difficulté d’aborder tout cela, même progressivement. J’ai voulu sans doute allé trop vite au début, du coup ça j’ai été court à la fin. Je précise que je ne suis pas un enseignant universitaire, même si je délivre des enseignements depuis 1995 (en IUT, puis en maitrise, master, à Bordeaux, puis à Paris), je ne suis pas un enseignant professionnel. C’est aussi en cela que mon enseignement n’est pas vraiment un « cours », ni complètement un TD. Alors comment le définir ? À la lumière de l’expérience de cette année, ça ressemble plus à une expérience, un cheminement où l’espace d’expérimentation est la base du travail : on explore les API, on découvre les données, leurs modèles et on bricole avec. ça permet par le faire, par le test de se poser des questions plus large, jusqu’à l’évolution des métiers de la données et du document numérique.

J’ai tenté de maintenir une structure de séance avec au début : un apports de notions générales (Qu’est-ce que le Web sémantique ? Qu’est-ce que SPARQL ? Quelles différences entre verbes d’API et requêtes SPARQL ? etc.) ; puis un temps de travaux pratiques (que j’appelle bricolage, dans le sens noble du terme) avec des focus ou des retours sur certaines notions vues en début de séance (ou aux séances précédentes). En terme de méthode, j’ai plus répété cette année afin de stabiliser les notions principales en insistant sur des notions clés (à lire d’ailleurs, ce très bon retour d’expériences sur les méthodes d’enseignements à l’université par Caroline Muller, mise en ligne par Christelle Rabier). Ainsi, je suis allé moins loin, mais nous avons — je l’espère, abordé au mieux les méthodes d’utilisation des données structurées.

Troisième limite, arriver à partager mon expérience avec les étudiants et là aussi, je vois de mieux en mieux la différence entre un cours par un·e enseignant·e universitaire (qui va mettre le recul, apporter des lectures, une position critique, épistémologique) et un retour d’expérience d’un professionnel de la données qui viens du Perl (le langage verbeux qui fait sourire les étudiants, si si), des données tabulées, etc. Cela dit, l’outil Jupyter a été je pense un bon levier pour partager ensemble les expérimentations que nous avons faites sur le SPARQL endpoint et API d’ISIDORE ou de NAKALA.

Malgré tout, nous avons réussi a développé de jolis «tableaux de bord» en Python sous Jupyter. Ici, quantifier la proportion des disciplines des 300000 billets des carnets de recherche de la plateforme Hypotheses.org :

Utilisation de Jupiter Hub pour les DEFI 2018-2019.

L’expérience de cette année me permettra, je l’espère l’an prochain, d’améliorer le rythme des 8 séances et le temps interne de chacune.

Je termine en remerciant l’ensemble des étudiants de cette promo 2018-2019 pour leur participation, leurs questions et leur patience. Mon «cours» est un peu à l’image de l’immense chantier en face de l’Université Paris Nanterre ;-)

Photo : Stéphane Pouyllau

Des historiens et des historiennes à l’ère numérique

Depuis quelques mois, je constate l’émergence d’une nouvelle « génération » d’historiens et historiennes. Il me semble qu’elle est apparue au détour des THATCamps sur les humanités numérique des années 2010-2012. J’y avais constaté la présence d’historiens et d’historiennes (et de nombreux doctorants et doctorantes) des disciplines de l’histoire moderne et contemporaine avides de comprendre le mouvement des humanités numériques. Plus attentif à porter mes deux communautés de formation (histoire médiévale et archéologie) vers les humanités numériques et surtout en raison de la création d’Huma-Num, je n’ai vu que récemment l’envol de cette une nouvelle « histoire à de l’ère numérique ». Si les historiens et historiennes ont depuis longtemps forgée des bases de données, gérés et utilisés des données quantitatives et qualitatives, il me semble qu’il souffle un vent un peu nouveau depuis quelques années en particulier sur trois points : la réflexion sur les méthodes de l’historien doublée une réflexion épistémologique assez poussée sur les sources de l’historien ; la place de l’outil (au sens large) dans la recherche et l’enseignement de l’histoire à l’université ; enfin, résultante de ce dernier point, le renouvellement des pratiques de l’enseignement de l’histoire dans le supérieur.

De nouvelles sources et un recul à prendre

Quand Frédéric Clavert utilise comme source de ses travaux des tweets, il fait entrer de nouveaux contenus (courts, liés à un contexte temporel, etc.) dans la bibliothèque du chercheur. Il y fait aussi entrer de la technique, de la documentation informatique, du code qui entraine obligatoire la nécessité d’une épistémologie des contenants au même titre que de celle des contenus.

Consultation collective d’archives historiques et cartographiques sur ISIDORE tactile, 2018 – Photo : S. Pouyllau.

Construire le réservoir de connaissance de l’historien à partir d’une API (ici celle de Twitter) implique une « diplomatique de l’API et du code » qui va traiter les données et une explicitation des choix qui seront fait par l’historien ou historienne des structures de la base de données. Même si de nos jours ce travail est mal pris en compte dans l’évaluation de la qualité des travaux, ce n’est qu’un moment. Demain, la « diplomatique de l’API » sera au centre de l’attention portée à compréhension des conclusions et connaissances nouvelles avancées par cette profession.

L’outil dans la recherche et dans l’enseignement

Quand Franziska Heimburger, Émilien Ruiz ou Caroline Muller diffusent leurs impressions, conseils, « trucs et astuces » et réflexions sur Zotero et autres outils, via leurs différents carnets de recherche, blogs, sites web, conférences, journées d’études, ils/elles placent l’outil numérique dans la recherche. Le programme informatique est dans leurs mains d’historiens et historiennes et c’est par leurs critiques et impressions qu’ils entrent dans le cartable de tous les futurs historiens et historiennes qu’ils/elles forment. Par leurs essais, pour leurs propres besoins, entourés (ou pas) de personnels d’accompagnement des SHS, ils/elles ont construit des protocoles du traitement des données de l’histoire. Ce n’est par la confrontation à la donnée et aux outils standards et finalement assez loin des grandes manœuvres, parfois un peu oppressante, de la normalisation et de l’internationalisation des pratiques par l’innovation, qu’ils/elles forgent leurs applications et leurs chaines de traitement des données.
Maintenant, ils/elles sont dans le partage de ces protocoles, ils/elles « prescrivent » et assument de le faire sans positionner ce savoir en tant que « science auxiliaire », c’est à dire à « coté » de l’histoire. Il me semble qu’il y là quelque chose d’intéressant. En effet, assumer d’être producteur de connaissance, forgeurs d’outils pour produire ces savoirs tout en assurant la critique, la promotion et l’enseignement de l’évolution des techniques de son propre métier — dans un domaine où l’on sépare encore largement le savoir érudit de comment il est produit, me semble relever d’une avancée considérable et d’une aventure passionnante. Car au-delà de l’important renouvellent les problématiques de recherche qu’ils/elles portent, ils/elles font évoluer les choses.

Enseigner à l’ère numérique

Quand Caroline Muller ou Martin Grandjean enseignent, ils intègrent dans leurs enseignements les méthodes et les (ou leurs) outils numériques. Ils modifient fortement et pour longtemps dans la façon d’enseigner l’histoire même si quelques retours en arrière peuvent être possibles malheureusement (sans doute dues à des contraintes passagères qu’à des réactions d’opposition construites et réfléchies).
Plusieurs billets ont récemment très bien détaillé je trouve cette appropriation du numérique dans les métiers de l’enseignement supérieur et de la recherche en histoire : Emilien Ruiz l’a très bien exprimé dans “Historien·ne·s numériques : gare au SSPQ !” :

« Je suis, depuis longtemps, convaincu de la nécessité d’un ancrage disciplinaire de la formation numérique des étudiants : pour ne pas être dépendants des outils, pour se garder tant des envolées lyriques que des rejets dédaigneux, c’est en historiennes et historiens que nous devons appréhender les instruments informatiques et les ressources numériques à notre disposition. »

Le billet de Caroline Muller, “Le cours « de numérique » est un cours comme les autres” est aussi dans cette idée et va plus loin :

« Il était donc certainement nécessaire de passer par cette étape du champ séparé des « humanités numériques », même s’il a peut-être contribué, en retour, à instituer l’idée que c’est un monde à part, et retardé l’intégration aux pratiques et formations disciplinaires classiques. »

J’adhère à cette analyse.

Ces billets sont des marqueurs, bien visibles et pour une large audience, des transformations qui s’opèrent actuellement dans les parcours de L et M à l’université. En disant cela il me sera sans doute opposé l’idée qu’il s’agit là de parcours particuliers dus à la personnalité de quelques-uns ou quelques-unes, que ce n’est pas un mouvement de masse, que l’université n’est pas (ou n’est plus) en mesure d’en faire un enseignement pour tous, que les pratiques mettront 25 ans à changer, qu’il y a la question des moyens et de la formation continue du personnel enseignant post-recrutement, etc. Je sais tout cela.
Cependant je ne veux pas attendre que l’université s’y mette pour souligner l’importance du travail fait en ce moment par ces quelques personnes qui sont en train de faire évoluer sans pour autant être dans la « disruption ». D’autres me diront que du point de vue des métiers de la connaissance (documentation, bibliothèques, archives) cela n’est pas nouveau et qu’il y a encore beaucoup de travail. Je répondrai, tant mieux ! Cette évolution du métier d’historiens et historiennes que porte ce petit groupe vous permettra sans doute de faire évoluer les vôtres ! Cela faut d’ailleurs pour les sciences du numériques et la mise en oeuvre des infrastructures de recherche : délivrer de la « puissance numérique » doit tenir compte de ces évolutions et il faut éviter de plaquer des pratiques numériques issues d’autres communautés car — pour l’histoire, ces pratiques de l’ère numérique sont clairement en train d’être portées, d’être discutées par les enseignants-chercheurs du domaine. On fait un pas de coté, on observe et on accompagne.

IBM 129 Card Data Recorder (IBM System/370, 1971) – Photo : S. Pouyllau

Comme je dis depuis longtemps maintenant, faire de la recherche en SHS, depuis l’arrivée de l’ordinateurs (1972-1989), puis du Web (1989-), puis de l’ère numérique (que je fais débuter à l’arrivée des smartphones — en gros en 2007, et qui ont complété le carnet d’archives), c’est mixer les métiers. C’est faire à minima de 20 à 30% du chemin vers les autres métiers : de l’informatique, de la donnée, de l’archive. Le fait que ce mouvement irrigue en temps réel les enseignements est une chose importante car cela veut dire évidement que l’agilité et l’autonomie face aux données et aux outils s’améliore pour les historiens et historiennes, que la critique des méthodes et des outils se renforce et que les thématiques de recherche seront interrogées différemment.

En conclusion, si je me permets de mettre la lumière sur ces quelques personnes, pour certains et certaines croisés récemment, je le fais volontairement car il me semble qu’ils/elles sont plus assis sur la tête que sur les épaules des géants. Ce que je vois de cette évolution de l’historien me plait car elle place le numérique au bon niveau au bon moment. Surtout, le plus important à mes yeux, c’est que le bon niveau et le bon moment sont le fruit de leur travail mixant leurs pratiques et l’import de savoirs extérieurs (informatique, etc.) dans ce qu’ils/elles définissent comme le périmètre de l’historien/historienne.

Je veux par ce billet les remercier (eux et tous ceux qui ce placent de façon raisonnée dans l’ère numérique) d’avoir compris qu’il ne fallait pas forcement cultiver le champ qu’on leur destinait, et que pour cela il fallait mettre à jour leurs outils et la façon de les utiliser tout en s’imprégnant des travaux, des erreurs faites et des contraintes de leurs temps. Ils/elles sont des aussi des pionniers.

Stéphane Pouyllau.

Note : le billet contient sans doute encore des coquilles, merci de me les signaler en commentaire.

Document structuré et écriture numérique

Ajout du 26 juillet, exemple de contenus du cours (version 0) :

J’enseigne depuis quelques années à l’université de Paris Nanterre, en tant que « professionnel extérieur », dans le cadre du master « Documents électroniques et flux d’informations » (dit « DEFI »). Mon cours s’intitule « Document structuré et écriture numérique » et pour l’an prochain (2018-2019) j’en ai entièrement revue la structure.

Description du cours :

Le cours portera sur l’écriture numérique dans le contexte de l’open data et de la science ouverte (open science) car en effet de nos jours les publications (articles scientifiques, thèses, mémoires, rapports, littérature grise) embarquent des données issues de bases de connaissances, de bases de données, d’API, du Web sémantique. Dans ce contexte, les publications embarquent de nos jours non seulement du texte et des références bibliographiques, mais aussi des données (sérielles, documents, etc) et des programmes informatiques qui traitent ces dernières. Quel sont les enjeux de ces nouvelles forme de publication ? Comment « écrire » des programmes dans un document ? Quels rôles jouent les vocabulaires documentaires mais aussi les API et les SPARQL endpoint ? Quels sont les standards qui s’en dégagent ? Est-ce une nouvelle forme de publication ? Comment pérenniser ces documents ? A l’aide de données issues des projets ISIDORE, NAKALA, WikiData, le cours permettra d’acquérir :

  1. Les enjeux des données dans la publication scientifique et technique (2 séances)
  2. La conception de publications de données (2 séances)
  3. Le traitement de données (2 séances)
  4. La compréhension des vocabulaires documentaires structurés (1 séance)
  5. Les enjeux de l’interopérabilité des métadonnées et données (1 séances)

Outils utilisés :

Pré-requis :

  • notions de Python

Bibliographie et lectures :

Enseignant : Stéphane Pouyllau, ingénieur de recherche au CNRS, directeur technique d’Huma-Num (très grande infrastructure de recherche pour les sciences humaines et sociales numériques)

Bibliographie (non exhaustive) :

Bermès, E., A. Isaac et G. Poupeau (2013) : Le Web sémantique en bibliothèque, Collection Bibliothèques, Paris.

Gandon, F., C. Faron-Zucker et O. Corby (2012) : Le Web sémantique: comment lier les données et les schémas sur le web ?, InfoPro. Management des systèmes d’information, ISSN 1773-5483, Paris, France.

Passant, A. (2009) : Technologies du Web Sémantique pour l’Entreprise 2.0, Mémoires, Thèses et HDR, ABES.

Poupeau, G. : Réaliser un mashup de données avec Dataiku DSS et Palladio | Les petites cases (http://www.lespetitescases.net/realiser-mashup-donnees-Dataiku-DSS-Palladio, consulté le 1 juillet 2018).

Pouyllau, S. (2012) : “Les moteurs de recherche profitent aussi de la sémantique”, Documentaliste – Sciences de l’Information, 48, 4, 36‑37.

Pouyllau, S. (2013) : “Web de données, big data, open data, quels rôles pour les documentalistes? (French)”, Documentaliste: Sciences de l’Information, 50, 3, 32‑33.

Pouyllau, S. (2014) : sp.Blog — Utiliser Isidore pour ses propres données (quand on est, par exemple, dans un labo) (http://blog.stephanepouyllau.org/646).

Louise

Je viens d’apprendre le décès brutal de Louise Merzeau. Elle m’avait invité à participer au séminaire Ecrilecture en 2012 et je me souviens de cette discussion si forte et riche qui s’y était développé. Grace à Louise, j’ai rencontre Marcello Vitali-Rosati, Vincent Larrivière, etc. mes contacts du Québec avec qui je travaille aujourd’hui. J’ai croisé plusieurs fois Louise Merzeau dans des réunions, ateliers, et j’avais été marqué par la richesse de ses analyses, toujours très précises, appelant à réfléchir. Elle m’avait souvent questionné sur les « traces » dans le cadre du projet ISIDORE, et particulièrement lors du séminaire Ecrilecture. Ses questions étaient si constructives. Je pense à ses proches, à ses étudiants. Louise va nous manquer.

MédiHAL, 5 ans et 24000 photos et images scientifiques plus loin…

Lancé en 2010 par le Centre pour la communication scientifique directe du CNRS et avec l’aide du TGE Adonis (devenu depuis Huma-Num) et du CN2SV, MédiHAL est une archive ouverte de photographies, d’images, et maintenant de vidéo qui compte plus de 24000 entrées venant principalement du domaine des SHS (mais pas que !). Ayant participé à sa création avec S. Kilouchi, D. Charnay et L. Capelli, je suis très content du chemin parcouru par ce projet, modeste au départ, qui fut réalisé rapidement (quelques mois) et finalement avec assez peu de financement (uniquement les salaires des acteurs concernés).

MédiHAL

MédiHAL, vue en 2016

Après 5 ans de travail autour de MédiHAL, principalement dans l’animation/promotion de cet objet et dans la validation des dépôts,  et parce que mes occupations actuelles au sein d’Huma-Num sont très intenses, j’ai estimé qu’il était temps de passer la main à d’autres. C’est désormais, le CCSD qui assurera la validation des dépôts dans MédiHAL ainsi que la définition des évolutions futures de la plateforme. Beaucoup de personnes ont contribué à améliorer MédiHAL depuis le début et j’espère que cela continuera car si l’outil se veut simple, il y aura toujours des choses nouvelles à proposer autour des archives ouvertes de données (en particulier en lien avec les publications). MédiHAL contient des images et des photographie qui ont aujourd’hui une valeur scientifique et patrimoniale particulière qui raisonnent avec l’actualité, en particulier les séries de photographies du temple de Bêl à Palmyre (Syrie) issues des collections de l’Institut Français Du Proche-Orient (ifpo).

Palmyre, Temple de Bel

Palmyre, Temple de Bel

J’ai été très heureux de participer à ce projet et je lui souhaite plein de bonnes choses pour le futur ! Et via ISIDORE, qui moissonne MédiHAL et HAL, je regarderai avec bienveillance grandir le corpus de MédiHAL !

Stéphane.

Un Macintosh Plus de 1986 connecté à Internet ?

Après l’opération « on échange des fichiers entre un Macintosh Plus de 1986 et un MacBook Pro » via Zterm et un cable série…

Zterm_MacOS10

Zterm_MacOS6

… voici l’opération « un Macintosh Plus de 1986 se connecte à Internet » réalisée ! J’avais mis cela sur Facebook il y a quelques semaines et j’en fait un mini billet pour les amateurs de rétro-informatique (je ferai un billet plus détaillé, avec captures d’écran « cathodique de 9 pouces » dans quelques temps).

Pour information le Macintosh Plus date de 1986, il a 4 méga-octets de RAM (!) et tourne sous Mac OS 6.0.8 et se connecte à Internet via MacPPP + MacTCP et une connexion série sur un Raspberry Pi équipé du programme SLIRP qui fait le pont vers internet (d’un port série à du RJ45). Le Raspberry Pi (modèle B) tourne sous Raspbian. SLIRP simule une connexion PPP et fait le pont vers le réseau TCP/IP. 

RaspberryPi

11147089_10153178469812910_1968912769725771678_nRésultat : on surfe à la vitesse ultra rapide de… 19200 bit/s (19 kbit/s) ! Cela est suffisant pour faire du… FTP ou du Telnet (haaaa NCSA Telnet !).

Cela permet de se rendre compte qu’entre 1990 et 1995 se connecter à Internet et à ses services ( gopher, WWW, etc.) n’était pas si évident pour qui avait investi dans les années 80 dans un macintosh. Il est intéressant de voir aussi que les « couches » de protocoles, services étaient encore bien visibles et séparées les unes des autres. PPP d’un coté pour établir la connexion, MacTCP pour la couche TCP/IP, MacWWW (de Robert Cailliau !), Eudora pour les emails (et encore sur le port 25 en SMTP c’est dur aujourd’hui… Mais mon synology est là pour faire le pont…)… Refaire vivre la technologie d’il y a juste 20 ans n’est pas simple mais on y arrive.

Prochaine étape :

1/ Mettre en place MacWeb premier navigateur web pour Mac OS ! Mais là j’ai besoin de passer le Macintosh Plus sous system 7.0.x, et là, les 4 Mio de RAM vont être justes…

2/ Ecrire un billet dans mon blog présentant tout cela !

PS : Je ne suis pas le premier à le faire … Jeff (http://www.keacher.com/…/how-i-introduced-a-27-year-old-co…/) m’a bien aidé d’ailleurs ! merci à lui…

Parution « Le temps des humanités digitales »

Bonjour,
Je signale la parution chez Fyp éditions de l’ouvrage dirigé par Olivier Le Deuff et dans lequel j’ai contribué (un petit peu) : « Le temps des humanités digitales, la mutation des sciences humaines et sociales ». Ce livre collectif donne des pistes pour découvrir et s’approprier le mouvement des humanités « digitalo-numériques ». Au fil des chapitres, il est aussi clair que l’on sent bien que le « poids » du Web est de plus en plus important pour le secteur de la recherche en SHS : les outils de traitements, documentations et visualisations passent tous par le Web (et donc par le protocole HTTP). Cela renforce l’importance des enjeux de la bonne compréhension de ce dernier (ex. : le Web et Internet, c’est différent !) en particulier à l’heure du web des données. Bonne lecture !

Stéphane.

Le temps des humanités digitales

Résumé éditeur : « Les humanités digitales se situent à la croisée de l’informatique, des arts, des lettres et des sciences humaines et sociales. Elles s’enracinent dans un mouvement en faveur de la diffusion, du partage et de la valorisation du savoir. Avec leur apparition, les universités, les lieux de savoir et les chercheurs vivent une transformation importante de leur mode de travail. Cela entraîne une évolution des compétences et des pratiques. Cet ouvrage explique les origines des humanités digitales et ses évolutions. Il décrit leurs réussites, leurs potentialités, leur rapport à la technique et comment elles transforment les sciences humaines, la recherche et l’enseignement. Il examine les enjeux des nouveaux formats, modes de lecture, et des outils de communication et de visualisation. Ce livre permet d’aller plus loin dans vos pratiques et vos réflexions. Le temps des humanités digitales est venu ! »

Sous la direction d’Olivier Le Deuff. Avec les contributions de Milad Doueihi, Jean-Christophe Plantin, Olivier Le Deuff, Frédéric Clavert, Frédéric Kaplan, Mélanie Fournier, Nicolas Thély, Marc-Antoine Nuessli, René Audet, Stéphane Pouyllau, Frank Cormerais, Sylvain Machefert.

Utiliser Isidore pour ses propres données (quand on est, par exemple, dans un labo)

Isidore peut être un moyen, pour un laboratoire ou une équipe de recherche, d’enrichir et de relier des métadonnées et donc, par cette voie, des données. Comment faire ? En premier lieu, il faut faire entrer ses données dans Isidore, je renvois le lecteur à la page « à propos » du site Isidore. Ensuite, via le triple-store (une grosse base d’information construite selon les principes du RDF et qui est au cœur d’Isidore), il est donc possible de récupérer des métadonnées dites « enrichies » : c’est à dire les métadonnées fournies par le producteur et les enrichissements sémantiques créés par Isidore.

Le triple-store est accessible en ligne, soit dans une interface pédagogique (qui donne les clés pour comprendre le triple-store) : http://www.rechercheisidore.fr/sqe soit dans l’interface de notre outil de triple-store Virtuoso (et plus familier pour les webmasters) : http://www.rechercheisidore.fr/sparql. L’interface d’interrogation d’un triple-store (ou encore 3store) est appelée aussi SPARQL endpoint (point d’accès en langage SPARQL d’un triple-store).

Une requête très simple pour débuter en reprenant un cas concret : je suis un webmaster d’un projet ANR et je souhaite récupérer les métadonnées enrichies des documents de mon projet, indexés par Isidore. La requête ci-dessous me permet de lister toutes les ressources de mon projet (identifiées par un identifiant pérenne handle, apposé gratuitement – et réutilisable librement – par Isidore) :

PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX dces: <http://purl.org/dc/elements/1.1/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>

SELECT DISTINCT ?isidore_handle ?titre ?date WHERE {
<http://www.rechercheisidore.fr/resource/10670/2.3gmog5> ?p ?o.
?o dcterms:title ?titre.
?o dces:date ?date.
?o dcterms:identifier ?isidore_handle
FILTER (regex(?isidore_handle, "10670"))
}

Voir le résultat de la requête

En PREFIX, j’indique par leurs URI, les vocabulaires documentaires utilisés dans le triple-store d’Isidore pour décrire les informations (notez qu’il y en a plusieurs, nous y reviendrons). dcterms et dces (pour Dublin Core Element Set) pour les métadonnées documentaires, FOAF pour décrire les informations relatives aux personnes (ici, des auteurs).
Le SELECT, WHERE et FILTER vont me permettre d’exécuter ma requête et d’en filtrer les réponses : avec l’utilisation ici d’une expression régulière me permettant d’isoler les triplets et donc de dédoublonner ces derniers pour une meilleure lecture. En effet, SPARQL permet de rechercher des informations sous la forme de triplets RDF (sujet, prédicat, objet).

Isidore, vous le savez, enrichit les ressources qu’il moissonne (voir ici). Ainsi, il est aisé d’utiliser le triple-store d’Isidore pour récupérer des signalements de données enrichie sur un territoire (puisque Isidore relie le contenu des ressources moissonnées avec des concepts issus du référentiel géographique mondial GeoNames). Ici, une requête permettant de récupérer tous les articles (uri : http://www.rechercheisidore.fr/ontology/art) ressources ayant été relié au département de la Seine-Saint-Denis (les Séquano-Dionysiens seront content) par un filtrage sur ‘2975246’ de l’uri http://sws.geonames.org/2975246/ de GeoNames :

PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX dces: <http://purl.org/dc/elements/1.1/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
PREFIX ore: <http://www.openarchives.org/ore/terms/>

SELECT ?resource ?title ?url ?source ?country WHERE {
?resource dcterms:type <http://www.rechercheisidore.fr/ontology/art>.
?resource dcterms:title ?title.
?resource ore:aggregates ?url.
?resource ore:isAggregatedBy ?source.
?resource dcterms:coverage ?country.
FILTER (regex(?resource, "10670", "i") && regex(?country, "2975246", "i"))
} GROUP BY ?resource

Voir le résultat de la requête

Le triple-store d’Isidore permet de « sortir » les données dans plusieurs format, CSV, RDF/XML, JSON suivant ce que l’on veut faire des informations (applications en ligne de visualisation de données par exemple) : très pratique justement pour les webmasters qui connaissaient bien ces formats.

La force d’Isidore est d’enrichir les ressources à l’aide de référentiels scientifiques, ainsi il est possible d’avoir la liste des ressources correspondant à l’une des catégories de Calenda venant des 2000 producteurs de données présents dans Isidore. En effet, l’ontologie d’ISIDORE aligne ensemble plusieurs URIs venant de plusieurs référentiels disciplinaires de SHS (HAL-SHS, Calenda, Thésaurus W du ministère de la Culture et de la Communication, dbpedia, etc.), exemple avec cette requête :

SELECT ?predicat ?objet {
<http://www.rechercheisidore.fr/subject/SHS:HIST> ?predicat ?objet
}

Voir le résultat de la requête

qui donne :

predicat objet
http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://www.w3.org/2004/02/skos/core#Concept
http://www.w3.org/2004/02/skos/core#inScheme http://www.rechercheisidore.fr/categorie
http://www.w3.org/2004/02/skos/core#prefLabel « Histoire »
http://www.w3.org/2004/02/skos/core#prefLabel « History »@en
http://www.w3.org/2004/02/skos/core#prefLabel « Història »
http://www.w3.org/2004/02/skos/core#broader http://www.rechercheisidore.fr/subject/SHS
http://www.w3.org/2004/02/skos/core#exactMatch http://calenda.revues.org/categories.rdf#categorie20
http://www.w3.org/2004/02/skos/core#exactMatch http://dbpedia.org/resource/History

On voit bien qu’il est facile d’utiliser l’alignement proposé par l’ontologie d’Isidore entre Dbpedia, Calenda, HAL-SHS pour la discipline ‘Histoire’. Ainsi, il est possible de demander à Isidore toutes les ressources qui sont tagguées avec l’URI <http://www.rechercheisidore.fr/subject/SHS:HIST> (ici limité à 100 ressources) :

PREFIX sioc: <http://rdfs.org/sioc/ns#>
PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX dces: <http://purl.org/dc/elements/1.1/>

SELECT ?resource ?title WHERE {
?resource sioc:topic <http://www.rechercheisidore.fr/subject/SHS:HIST>.
?resource dcterms:title ?title
FILTER (regex(?resource, "10670", "i"))
} LIMIT 100

Voir le résultat de la requête

Aller, maintenant à vous ! Proposez-moi vos requêtes dans les commentaires ! L’auteur de la plus originale gagnera une carte postale d’Isidore dédicacée par l’équipe !

Bon SPARQL sur Isidore !

Stéphane.

Le libre accès privatisé ?

A l’occasion de la semaine du libre accès (open access week, du 21/25 octobre 2013), j’ai découvert un peu plus le projet MyScienceWork (MSW) qui se veut être un projet de réseau social centré sur les sciences. Ces réseaux ne sont pas nouveaux, ils sont assez nombreux : de Researchgate.org à Academia.edu. De façon plus claire, sur la première page de son site web, MSW propose un moteur de recherche assez large et qui affiche au compteur 28 millions de publications, … Certains chercheurs me diront que c’est spectaculaire, merveilleux et qu’il y a tout dans ces moteurs de recherche de réseaux sociaux mais je répondrai qu’il est facile d’afficher 28 millions de publications : il suffit de moissonner soit le web et de trier les sources, soit des entrepôts d’archives ouvertes selon le protocole OAI-PMH et de faire comme OAIster.org il y a quelques années : grossir, grossir, grossir… Ensuite il faut bien sur une interface et des filtres (facettes, etc.). Il est facile de faire du chiffre dans ce domaine là quand l’OAI-PMH permet le moissonnage gratuit de métadonnées et la récupération – par exemple – des articles en PDF qui y sont déposés. Testant le moteur de recherche de MSW justement, quelle ne fut ma « surprise » de voir que ce réseau – tout en se réclamant de libre accès (leur slogan est « MyScienceWork: Frontrunner in Open Access » – en malmène largement les principes ; voir construit son projet en privatisant de la connaissance en libre accès.

MSW Login

Comme beaucoup de personnes, à la vue d’un outil de recherche en ligne, mon narcissisme reprend du poil de la bête, je requête MSW sur mon patronyme : un grand nombre de mes articles, pré-publications, documents sortent. Je me dis alors qu’ils moissonnent HAL-SHS, l’archive ouverte nationale, et que dont voilà une belle initiative valorisant les contenus en libre accès. Hélas, voulant accéder au document PDF de l’un de mes papiers (en libre accès), je découvre qu’il faut avoir un compte MSW pour télécharger le document ou le lire en ligne (c’est à dire utiliser le lecteur PDF de MSW). Résumons, alors que mes articles sont libre accès dans HAL-SHS et au passage que je me suis battu (avec les éditeurs) pour qu’ils le soient, MSW demande aux utilisateurs venant sur leur moteur de recherche de se créer un compte pour voir mes papiers ! Sans compte dans MSW impossible de télécharger l’article PDF ou de le lire.

Pire, il n’est même pas signalé l’origine des publications : ni source, ni référence d’éditeurs, et donc HAL-SHS n’est même pas mentionné ! L’url pérenne fournie par HAL-SHS n’est pas indiquée non plus, le lien proposé pointe sur une adresse « maison » de MSW qui n’a rien de pérenne (elle est explicite, mentionne le nom du réseau : http://www.mysciencework.com/publication/show/1107184/les-moteurs-de-recherche-profitent-aussi-de-la-semantique). Bref, on ne sait pas d’où vient l’article, ni dans quoi il a été publié ! Parfois une mention « In » apparait, mais pas dans mes articles. Voir la différence de traitement du même papier que j’ai déposé dans HAL-SHS et moissonné dans MSW (éditeur mentionné par ex. dans mon dépot HAL-SHS) :

Article dans hal-shs

 

Article dans msw

Je garde le meilleur pour la fin, dans le cas des dépôts dans HAL-SHS, aucun des liens proposés par MSW ne permet d’accéder à l’article PDF ! Je me suis créer un compte « pour aller au bout » et surprise : que des pages 404 (au 28/11/13) ! Rien ! Impossible d’atteindre les articles alors qu’ils sont bien dans HAL-SHS. Bien sur, sur ce point, il doit sans doute s’agir d’une interruption « momentanée » des liens (c’est assez classique dans moteur de recherche, lors des ré-indexations), mais quand bien même ils fonctionneraient (les liens) il est difficile de savoir que l’article est en ligne ailleurs, sur HAL-SHS : le lecteur en ligne de MSW est une petite fenêtre en pop-up. Bref, cela ne fait qu’aggraver le cas je trouve, car j’ai l’impression que l’on « cache » le fait que l’article est en ligne en AO avec des métadonnées plus riches (cf. halshs.archives-ouvertes.fr/halshs-00741328).

Pourquoi ? Imaginons un étudiant qui débute cette année en master 2 et qui s’intéresse à l’histoire des maisons fortes du Moyen-âge dans le sud-ouest (bref, moi en 1997) et qui tombe sur le moteur de recherche de MSW. Il tombe sur mon DEA et mes articles sur le Boisset et se dit qu’il doit y avoir dedans des choses à prendre et bien même avec un compte MSW il n’est pas sûr d’avoir accès aux documents ! C’est vraiment dommage car par ailleurs, ils sont sur HAL-SHS, ils sont en libre accès, ils peuvent être cités par leur url (mieux : par les identifiants pérennes handle d’Isidore que je mentionne d’ailleurs dans les métadonnées de HAL-SHS), ils mentionnent l’email et les contacts de l’auteur (au cas où l’étudiant ait envie de me contacter), ils sont reliés à d’autres données dans le cadre d’Isidore (j’espère que sa BU lui a conseillé d’utiliser Isidore)… Bref, d’un coté il a permis à MSW d’engranger de la valeur, mais il n’a pas les documents et donc pas l’information, de l’autre, il a l’information et les documents, le contact, d’autres documents en rapport avec son travail. C’est en cela que je trouve ces pratiques malhonnêtes et que je dis qu’il s’agit de la privatisation de connaissances en libre accès.

J’ai signalé cela sur twitter et MSW m’a répondu sur twitter le 21 octobre 2013 :

Réponse MSW

J’entends bien que le principe est la collecte d’information afin de faire du profilage de personnes, d’ailleurs construire de la valeur sur des données en libre accès pourquoi pas, cela ne me dérange pas dès lors que l’on n’en « privatise » pas l’accès. Pourquoi MSW (et les autres d’ailleurs) n’indiquent-ils pas l’origine des données, que veulent-ils faire croire ? Qu’ils ne moissonnent pas ? C’est à dire que la valeur de leur réseau ne reposerait que sur des métadonnées ? Il me semble que les acteurs publics du libre accès aux données de la recherche devraient fixer des conditions dans les réutilisations des données des AO par exemple : pourquoi ne pas proposer des licences creatives commons, Etalab ou autres ? Cela devrait faciliter les réutilisations et le fait que les données sont en accès libre sur des plateformes publiques ? Je n’entre pas dans les détails juridiques, je ne suis pas assez compétent dans ce domaine, je réfléchis simplement à un de meilleurs accès à l’information.  Les plateformes telles que celle-ci ne devrait elle pas fonder leurs modèles sur la création d’enrichissements, d’éditorialisation des données ? Vous me direz, c’est ce que nous faisons déjà dans Isidore.

En conclusion, étant fonctionnaire et ayant choisi clairement le service public, j’estime que mes travaux doivent être communiqués le plus facilement possible aux publics. Je ne pense pas que les plateformes fondées sur ce modèle favorisent cela et j’estime qu’il y a là une certaine « privatisation » du savoir. Construire de la valeur sur des données gratuites est possible, mais pas en privatisant les données que les auteurs ont placées en libre accès. Ainsi, je souhaite que MSW et les autres réseaux sociaux signalent clairement dans leurs notices :

  • La source des données moissonnées (archives ouvertes, éditeurs, etc.)
  • La mention de la licence quand elle existe
  • Le lien d’origine de la données et l’identifiant pérenne de cette dernière quand il est disponible

Sans doute cela doit nous faire réfléchir, nous acteurs publics de la recherche, aux conditions et règles que souhaitons fixer dans nos interactions (nécessaires) avec la société et donc le monde marchand. Il me semble que les réseaux sociaux, moteurs de recherche sont nécessaires afin de toucher un maximum d’utilisateur et je pense aux étudiants en particulier mais il est de notre responsabilité de favoriser la diffusion des savoirs de façon large et donc de veiller à ce que cela reste possible.

Je rappelle ici, que MSW a organisé en 2013 la semaine du libre accès…

Stéphane.