sp.Blog

le blog de Stéphane Pouyllau

Catégorie : en général (Page 1 sur 6)

Le libre accès privatisé ?

A l’occasion de la semaine du libre accès (open access week, du 21/25 octobre 2013), j’ai découvert un peu plus le projet MyScienceWork (MSW) qui se veut être un projet de réseau social centré sur les sciences. Ces réseaux ne sont pas nouveaux, ils sont assez nombreux : de Researchgate.org à Academia.edu. De façon plus claire, sur la première page de son site web, MSW propose un moteur de recherche assez large et qui affiche au compteur 28 millions de publications, … Certains chercheurs me diront que c’est spectaculaire, merveilleux et qu’il y a tout dans ces moteurs de recherche de réseaux sociaux mais je répondrai qu’il est facile d’afficher 28 millions de publications : il suffit de moissonner soit le web et de trier les sources, soit des entrepôts d’archives ouvertes selon le protocole OAI-PMH et de faire comme OAIster.org il y a quelques années : grossir, grossir, grossir… Ensuite il faut bien sur une interface et des filtres (facettes, etc.). Il est facile de faire du chiffre dans ce domaine là quand l’OAI-PMH permet le moissonnage gratuit de métadonnées et la récupération – par exemple – des articles en PDF qui y sont déposés. Testant le moteur de recherche de MSW justement, quelle ne fut ma « surprise » de voir que ce réseau – tout en se réclamant de libre accès (leur slogan est « MyScienceWork: Frontrunner in Open Access » – en malmène largement les principes ; voir construit son projet en privatisant de la connaissance en libre accès.

MSW Login

Comme beaucoup de personnes, à la vue d’un outil de recherche en ligne, mon narcissisme reprend du poil de la bête, je requête MSW sur mon patronyme : un grand nombre de mes articles, pré-publications, documents sortent. Je me dis alors qu’ils moissonnent HAL-SHS, l’archive ouverte nationale, et que dont voilà une belle initiative valorisant les contenus en libre accès. Hélas, voulant accéder au document PDF de l’un de mes papiers (en libre accès), je découvre qu’il faut avoir un compte MSW pour télécharger le document ou le lire en ligne (c’est à dire utiliser le lecteur PDF de MSW). Résumons, alors que mes articles sont libre accès dans HAL-SHS et au passage que je me suis battu (avec les éditeurs) pour qu’ils le soient, MSW demande aux utilisateurs venant sur leur moteur de recherche de se créer un compte pour voir mes papiers ! Sans compte dans MSW impossible de télécharger l’article PDF ou de le lire.

Pire, il n’est même pas signalé l’origine des publications : ni source, ni référence d’éditeurs, et donc HAL-SHS n’est même pas mentionné ! L’url pérenne fournie par HAL-SHS n’est pas indiquée non plus, le lien proposé pointe sur une adresse « maison » de MSW qui n’a rien de pérenne (elle est explicite, mentionne le nom du réseau : http://www.mysciencework.com/publication/show/1107184/les-moteurs-de-recherche-profitent-aussi-de-la-semantique). Bref, on ne sait pas d’où vient l’article, ni dans quoi il a été publié ! Parfois une mention « In » apparait, mais pas dans mes articles. Voir la différence de traitement du même papier que j’ai déposé dans HAL-SHS et moissonné dans MSW (éditeur mentionné par ex. dans mon dépot HAL-SHS) :

Article dans hal-shs

 

Article dans msw

Je garde le meilleur pour la fin, dans le cas des dépôts dans HAL-SHS, aucun des liens proposés par MSW ne permet d’accéder à l’article PDF ! Je me suis créer un compte « pour aller au bout » et surprise : que des pages 404 (au 28/11/13) ! Rien ! Impossible d’atteindre les articles alors qu’ils sont bien dans HAL-SHS. Bien sur, sur ce point, il doit sans doute s’agir d’une interruption « momentanée » des liens (c’est assez classique dans moteur de recherche, lors des ré-indexations), mais quand bien même ils fonctionneraient (les liens) il est difficile de savoir que l’article est en ligne ailleurs, sur HAL-SHS : le lecteur en ligne de MSW est une petite fenêtre en pop-up. Bref, cela ne fait qu’aggraver le cas je trouve, car j’ai l’impression que l’on « cache » le fait que l’article est en ligne en AO avec des métadonnées plus riches (cf. halshs.archives-ouvertes.fr/halshs-00741328).

Pourquoi ? Imaginons un étudiant qui débute cette année en master 2 et qui s’intéresse à l’histoire des maisons fortes du Moyen-âge dans le sud-ouest (bref, moi en 1997) et qui tombe sur le moteur de recherche de MSW. Il tombe sur mon DEA et mes articles sur le Boisset et se dit qu’il doit y avoir dedans des choses à prendre et bien même avec un compte MSW il n’est pas sûr d’avoir accès aux documents ! C’est vraiment dommage car par ailleurs, ils sont sur HAL-SHS, ils sont en libre accès, ils peuvent être cités par leur url (mieux : par les identifiants pérennes handle d’Isidore que je mentionne d’ailleurs dans les métadonnées de HAL-SHS), ils mentionnent l’email et les contacts de l’auteur (au cas où l’étudiant ait envie de me contacter), ils sont reliés à d’autres données dans le cadre d’Isidore (j’espère que sa BU lui a conseillé d’utiliser Isidore)… Bref, d’un coté il a permis à MSW d’engranger de la valeur, mais il n’a pas les documents et donc pas l’information, de l’autre, il a l’information et les documents, le contact, d’autres documents en rapport avec son travail. C’est en cela que je trouve ces pratiques malhonnêtes et que je dis qu’il s’agit de la privatisation de connaissances en libre accès.

J’ai signalé cela sur twitter et MSW m’a répondu sur twitter le 21 octobre 2013 :

Réponse MSW

J’entends bien que le principe est la collecte d’information afin de faire du profilage de personnes, d’ailleurs construire de la valeur sur des données en libre accès pourquoi pas, cela ne me dérange pas dès lors que l’on n’en « privatise » pas l’accès. Pourquoi MSW (et les autres d’ailleurs) n’indiquent-ils pas l’origine des données, que veulent-ils faire croire ? Qu’ils ne moissonnent pas ? C’est à dire que la valeur de leur réseau ne reposerait que sur des métadonnées ? Il me semble que les acteurs publics du libre accès aux données de la recherche devraient fixer des conditions dans les réutilisations des données des AO par exemple : pourquoi ne pas proposer des licences creatives commons, Etalab ou autres ? Cela devrait faciliter les réutilisations et le fait que les données sont en accès libre sur des plateformes publiques ? Je n’entre pas dans les détails juridiques, je ne suis pas assez compétent dans ce domaine, je réfléchis simplement à un de meilleurs accès à l’information.  Les plateformes telles que celle-ci ne devrait elle pas fonder leurs modèles sur la création d’enrichissements, d’éditorialisation des données ? Vous me direz, c’est ce que nous faisons déjà dans Isidore.

En conclusion, étant fonctionnaire et ayant choisi clairement le service public, j’estime que mes travaux doivent être communiqués le plus facilement possible aux publics. Je ne pense pas que les plateformes fondées sur ce modèle favorisent cela et j’estime qu’il y a là une certaine « privatisation » du savoir. Construire de la valeur sur des données gratuites est possible, mais pas en privatisant les données que les auteurs ont placées en libre accès. Ainsi, je souhaite que MSW et les autres réseaux sociaux signalent clairement dans leurs notices :

  • La source des données moissonnées (archives ouvertes, éditeurs, etc.)
  • La mention de la licence quand elle existe
  • Le lien d’origine de la données et l’identifiant pérenne de cette dernière quand il est disponible

Sans doute cela doit nous faire réfléchir, nous acteurs publics de la recherche, aux conditions et règles que souhaitons fixer dans nos interactions (nécessaires) avec la société et donc le monde marchand. Il me semble que les réseaux sociaux, moteurs de recherche sont nécessaires afin de toucher un maximum d’utilisateur et je pense aux étudiants en particulier mais il est de notre responsabilité de favoriser la diffusion des savoirs de façon large et donc de veiller à ce que cela reste possible.

Je rappelle ici, que MSW a organisé en 2013 la semaine du libre accès…

Stéphane.

A quoi sert la dame du CDI ?

Dans le débat qui anime « l’initiative » : comment j’ai pourri le web ; je signale un billet intéressant sur Métro-boulot-catho. Je ne partage pas la conclusion qui consiste à dire : « on ne profite vraiment du numérique que quand on a formé son esprit sans lui » car je pense que ce n’est pas le support qui est en cause, mais la façon dont « le net » est envisagé à l’école et dans l’enseignement. Nous sommes là dans cas un caricatural il me semble mais posant la question. Ainsi je trouve très pertinente la remarque dans le billet de Métro-boulot-catho :

« Alors oui, il faut une vraie formation à l’information. Mais à moins de créer une discipline documentation, ce qui n’est pas à l’ordre du jour5, cette formation ne peut se faire que dans le cadre des autres disciplines. Ce collègue, au lieu de se donner tout ce mal pour piéger ses élèves, n’aurait-il pas mieux fait d’aller rencontrer son collègue profdoc pour monter une séquence digne de ce nom ? D’emmener ses élèves deux ou trois heures au CDI, pour les faire réfléchir par eux-mêmes aux raisons qui les conduisent à utiliser Internet sans discernement ? Initier à l’information, c’est ce pour quoi les profdocs choisissent ce métier. Ce collègue va-t-il reconnaître que nous avons des propositions à lui faire ? »

Les métiers de l’information, la documentation en particulier, ont effectivement des propositions à faire et d’ailleurs pas que pour les profs et leurs élèves… je pense aussi aux chercheurs, aux informaticiens, etc. dans mon domaine. Comme je l’ai souvent dit, il faut faire au moins 50% du chemin vers la question de l’autre.

Stéphane.

Bielefeld Academic Search Engine

Le portail BASE (Bielefeld Academic Search Engine) est un aggrégateur OAI-PMH moissonnant 1890 entrepôts OAI dans le monde (au 2 juillet 2011) et donnant accès à 28.911.265 notices. Utilisant Solr et le système d’opac VuFind, BASE est accessible via un site web très clair, rapide et fonctionnel. Sans proposer, comme dans ISIDORE, un enrichissement des métadonnées à l’aide de référentiels, ni l’indexation du texte intégral des données jointes aux notices OAI, BASE est un outil très performant qui fait partie des fournisseurs de services. « Fournisseurs de services »… cette expression, un peu obscure je trouve, désigne le plus souvent les portails documentaires moissonnant des métadonnées selon le protocole OAI-PMH. Après OAIster (aujourd’hui dissout dans l’offre d’OCLC), Scientificcommons.org, BASE a ses adeptes. En tous cas, ce projet conforte certains choix que nous avons fait dans ISIDORE : la mise en place d’un annuaire des entrepôts moissonnés (« A data resources inventory provides transparency in the searches« , voir dans « About BASE« ) ou encore la notion de web profond ou invisible « Discloses web resources of the « Deep Web », which are ignored by commercial search engines or get lost in the vast quantity of hits.« . Bien sur, la notion de facettes, mais calculées uniquement sur les contenus des métadonnées moissonnées : « Refine your search result » options (authors, subject headings, year, resources and language).

Limité à OAI-PMH, et donc à des métadonnées proposées sous la forme d’atomes sans relief, ce type de portail, comme ISIDORE d’ailleurs, devra évoluer car il est toujours un peu frustrant de ne pas naviguer dans des données en « relief ». ISIDORE, avec son SPARQL end point RDF contenant plus de 40 millions de triplets RDF, va déjà un peu plus loin, mais il nous faut imaginer des nouveaux systèmes de navigation et de signalement pour ces informations structurées en RDF.

Stéphane.

ISIDORE : valorisons les données des sciences humaines et sociales

Aujourd’hui, j’ai le plaisir de participer au lancement officiel d’ISIDORE, la plateforme de recherche dans les données numériques de la recherche en sciences humaines et sociales. Réalisée par le très grand équipement Adonis du CNRS, ISIDORE est une production collective qui a associé depuis plus de deux ans des acteurs publics et des acteurs privés au sein d’un marché de réalisation. Public tout d’abord : ISIDORE est un projet qui est la matérialisation concrète du projet fondateur du TGE Adonis : donner accès à de l’information, ouvrir des données, rendre visible la production des chercheurs et les données qu’ils utilisent pour travailler. Au sein du TGE Adonis un grand nombre de collègues ont travaillé pour ce projet, ils ont défini le projet, l’ont argumenté, le réalise aujourd’hui : c’est un travail d’équipe, long, complexe, parfois périlleux car il faut faire acte de pédagogie et de pragmatisme technique. Je vous invite à consulter ISIDORE, à le critiquer pour le faire évoluer car un outil tel que celui-ci doit évoluer en permanence. Je veux simplement souligner le très grand professionnalisme des collègues, partenaires industriels, qui ont partagé avec moi l’ensemble de la conception/réalisation de ce projet depuis mon arrivée au TGE en avril 2009 : Yannick, Benoit, Ariane, Nadine, Jean-Luc, puis Richard et Jean-Luc, Sophie, Shadia, L’équipe de la maitrise d’œuvre avec un immense respect pour Laurent tout d’abord, puis Daniel, Loic, Philippe, enfin tous les collègues du CNRS qui ont participé, soutenu, critiqué, aidé. Coté prestataires, je souligne le très grand professionnalisme des équipes ont travaillé avec nous et bien sur merci à Bruno, Jean-Louis, Fabrice et Gautier sans qui ISIDORE ne serait pas ISIDORE. Merci à tous !!

Stéphane.

Lundi…

Je suis dans la préparation de mon discours pour la cérémonie de remise du Cristal que le CNRS m’a décerné cette année. Que c’est dur ! 10 jours que je cherche une idée, une ligne… très difficile à faire tant le travail que je fais est avant tout collectif !

Aller, encore un effort !

Stéphane.

Hier soir, j’ai vu Uranus

Les vacances sont finies. Ce soir, retour à Paris, demain le travail reprend. Mais hier soir, les vacances ont été ponctuées par un très bon moment : une séance d’astronomie en famille. A 21h, le temps était magnifique, pas de vent sur les coteaux du Lauragais et déjà quelques étoiles du triangle d’été pointaient (Véga, Deneb, Altair) : décision est prise, nous montons au Pech pour une nuit d’astronomie. Le temps de charger tout le monde dans les voitures, nous roulons déjà sur la route sinueuse du Pech de Venerque. Nous nous installons sur le bord du Pech, plein Sud, à l’abri des lumières de la plaine de l’Ariège. Je prépare le NexStar 8 SE et nous sommes prêt pour la séance. Les neveux se disputent la place derrière l’oculaire pour voir Jupiter ; la galaxie d’Andromède – M31 (M trentéééé uin », avec l’accent toulousain) ; Mizar ou ζ UMa, la belle double de la Grande Ourse ; les amas globulaires de la Voie Lactée (M22, etc.). C’est un festival. De temps en temps, une étoile filante traverse le ciel et lance ou relance ainsi le concours de celui qui en verra le plus. La nuit avance, Jupiter monte sur l’écliptique, nous suivons la danse de ses satellites depuis quelques jours, merci Galilée. Ce soir, la lune ne vient pas trop nous éclairer, elle a du travailler trop tard hier, elle dort encore. Il est temps de chercher des amas ouverts et M29 est le plus beau. Les petits commencent à se lasser d’attendre leur tour et les grands demande plus de couleurs dans l’oculaire. Mais il est vrai que la vision derrière un 203 mm est différente d’une photographie prise par le télescope spatial Hubble… Le temps passe, il est 1h du matin, les enfants se sont endormis à la belle étoile ou plutôt aux belles étoiles. Il va être temps de redescendre. C’est alors que je me lance un défi à moi même, Uranus doit être là, à l’Est. La SkyRemote (télécommande à étoiles) du Celestron facilite le travail. Le télescope tourne, ralenti, s’arrête : pointe-t-il sur Uranus ? J’ai presque peur de regarder : avec un 203 mm, Uranus c’est un peu limite. Je me lance…

Dans le noir du ciel, quelques étoiles et… légèrement sur la droite, un petit point, légèrement vert/bleu. Je centre. Oui, c’est bien un petit disque. C’est bleu/vert, un peu comme la lumière froide d’une luciole. Je vérifie, plus de doute, c’est Uranus. Quel bonheur ! Je n’avais jamais vu d’objet planétaire au delà de Saturne pour l’instant (il faut dire que je n’avais qu’une lunette de 60 mm très ancienne). Je réalise que je regarde un objet qui est à 3 000 000 000 de Km. du Soleil.

Il est temps de partir, nous démontons, voiture, le chemin chaotique du Pech, retour à la lumière. Fin des vacances, demain Paris, mais hier soir, j’ai vu Uranus.

Stéphane.

MariaDB : l’avenir de MySQL ?

Bonjour,

Le monde autour de MySQL est en ébullition. Depuis le rachat par Oracle de Sun qui avait lui-même racheté MySQL, l’avenir du développement du système de gestion de bases de données open source le plus utilisé dans le monde est un peu en pointillé ce qui inquiète beaucoup de développeurs, principalement dans le monde de la recherche et de l’enseignement. Premier signe peut-être : la version open source de MySQL dite « Community » est d’ailleurs maintenant fondue dans celle payante nommée « Entreprise ».

Cependant, le créateur de MySQL, Michael « Monty » Widenius, lance MariaDB, un clone de MySQL dans le cadre de l’Open Database Alliance. MariaDB 5.1, qui sortira dans quelques mois,  s’appuie donc sur la version open sources de MySQL 5.1 : elle en aura l’ensemble des fonctionnalités selon les dires de M. Widenus.

Stéphane.

Dans le guidon

Bonjour,

Aller, la tête dans le guidon et on monte ! la mise en place de plateformes web et de wikis pour les digitals humanities sont en cours. Mais il me faudrait des journées de 48h pour avoir le temps de bloguer en ce moment ! Vivement les vacances de noël pour écrire et faire des photos !

A bientôt,

Stéphane.

Le point sur le DC

Bonjour,

En direct de Berlin (où il pleut) ou va s’ouvrir dans quelques minutes le DC2008 : la conférence internationnale sur le Dublin Core et sur les applications qui utilisent ce format de métadonnées. Le programme est dense tant le sujet est vaste, mais pour une fois, pas besoin de courir à l’autre bout de la planète pour assister à cette conférence qui se réunie depuis la création du Dublin Core.

Stéphane.

Encyclopédie médicale en ligne

Bonsoir,

Les encyclopédies en ligne alimenté par des internautes éclairés se multiplient de plus en plus, après KNOL (on dit « Nole »), lancé par Google, voici : Medpedia. Une future encyclopédie médicale en ligne construite sur le modèle de wikipédia (pour le wiki) mais alimenté par des professionnels : « but written and edited only by trained professionals » et dont l’ouverture est annoncée pour la fin 2008. Réalisée en partenariat avec Harvard Medical School, Stanford School of Medicine, University of California Berkeley School of Public Health et University of Michigan Medical School, cette plateforme propose des exemples sous la forme de captures d’écran. Le contenu des articles sera sous licence GFDL (GNU Free Documentation License). Affaire à suivre.

Stéphane.

Page 1 sur 6

Fièrement propulsé par WordPress & Thème par Anders Norén