sp.Blog
Le blog de Stéphane POUYLLAU

MariaDB : l’avenir de MySQL ?

Bonjour,

Le monde autour de MySQL est en ébullition. Depuis le rachat par Oracle de Sun qui avait lui-même racheté MySQL, l’avenir du développement du système de gestion de bases de données open source le plus utilisé dans le monde est un peu en pointillé ce qui inquiète beaucoup de développeurs, principalement dans le monde de la recherche et de l’enseignement. Premier signe peut-être : la version open source de MySQL dite “Community” est d’ailleurs maintenant fondue dans celle payante nommée “Entreprise”.

Cependant, le créateur de MySQL, Michael “Monty” Widenius, lance MariaDB, un clone de MySQL dans le cadre de l’Open Database Alliance. MariaDB 5.1, qui sortira dans quelques mois,  s’appuie donc sur la version open sources de MySQL 5.1 : elle en aura l’ensemble des fonctionnalités selon les dires de M. Widenus.

Stéphane.


Ecrit par Stéphane POUYLLAU le 11 juin 2009 :: Classé dans en général
Tags :: ,

Avoir le temps

Bonjour,

Le sp.Blog est-il mort ? Mon silence actuel est proportionnel au temps que je passe à faire mon vrai métier d’ingénieur d’études qui ressemble parfois, et de plus en plus, à un chemin de croix, doublé d’un slalom géant avec des tireurs d’élites postés dans les sapins. Accompagner la recherche est un métier passionnant, surtout quand vous travaillez dans la structuration d’un domaine tel que le mien et nouveau en France, les digital humanities. L’apport du numérique dans la recherche en SHS change une chose principale : le rapport au temps.  Il est dur de résister aux sirènes de la communication scientifique directe immédiate, aux projets de recherche “flash”, etc. Donc, maintenir un projet structurant long, faire de l’appropriation de modèles, de techniques et d’outils, suivre des dizaines de projets quand l’équipe de recherche n’existe plus, bichonner un site ou un serveur web orphelin de ces pères fondateurs, etc. n’est pas choses très évidente. Bref, ce que le numérique change c’est le temps.

Vous l’aurez compris, j’ai donc moins de temps.

Stéphane.


Ecrit par Stéphane POUYLLAU le 25 avril 2009 :: Classé dans digital humanities
Tags :: , , ,

digital humanities in Orleans

Bonjour,

Tout en préparant un billet (depuis noël, aie aie aie) sur un outil d’encapsulage des méta-données dans une image avec les possibilités offertes par le format XML couplé à du Dublin Core, j’ai eu l’honneur d’intervenir dans le séminaire de recherche sur l’édition électronique et les digital humanities nouvellement créé par Richard Walter à l’Institut de Recherche et d’Histoire des Textes du CNRS (Orléans). J’ai partagé la première séance de ce séminaire avec Michel Jacobson (DAF ; CNRS), responsable du Centre de Ressources pour la Description de l’Oral (Paris), un centre de ressources numériques du CNRS au même titre que celui que j’anime sur les données iconographiques. Un compte-rendu de ce séminaire a été écrit par Constance Krebs dans son blog amontour.net. Les digital humanities “à la française” comme dirait lou burnard avancent encore un peu, se structurent, réfléchissent et je pense dans le bon sens.
A bientôt pour parler XMP, Dublin Core et Perl.

Stéphane.


Ecrit par Stéphane POUYLLAU le 6 février 2009 :: Classé dans Communs
Tags :: , , , , ,

Ca, mais si souviens toi, c’était où déjà ? ou le geocaching scientifique

Pour noël, j’ai eu un GPS ! Ceux qui me connaissent me diront que n’ayant pas de voiture à Paris, ce n’est pas très utile. Et pourtant, si l’ont veut géo-référencer les photos de noël et le déballage des cadeaux par les enfants, cet outil devient très pratique, testons un peu…

D90+GP-1

J’ai donc un GPS pour mon D90 : il s’agit de l’unité GP-1, qui se place à la place du flash ou sur le coté. Pour info, dans le Nikon P.6000, un compact, le GPS est en standard.

Mes grands-parents, s’ils étaient en vie, diraient : “Mais que fait Stéphane, dans le jardin, avec un appareil photographique pointant vers le ciel ?” Au début, la première capture des satellites est un peu longue : plus de 5 s., c’est déjà embêtant si vous devez déclencher tout de suite… passons. En laissant l’appareil en veille, ça va mieux. Ensuite cela semble assez précis (même dans le jardin), l’altitude aussi (testé avec un bon vieil altimètre).

D90+GP-1

Clic-clac, les coordonnées et l’altitude sont bien capturées et incluses dans les méta-données EXIF de l’image. Avec Exiftool (et tous les outils qui tourne autour), par exemple, il est facile de voir et d’exporter ces valeurs de positionnement (extrait) dans ExiftoolGUI…

D90+GPS_1

De les sortir sous la forme d’un tableau HTML (voir plus bas)…

EXIF GPSVersionID 2.2.0.0
EXIF GPSLatitudeRef North
EXIF GPSLongitudeRef West
EXIF GPSAltitudeRef Above Sea Level
EXIF GPSTimeStamp 11:24:24
EXIF GPSSatellites 05
EXIF GPSMapDatum
EXIF GPSDateStamp 2008:12:25
Composite GPSAltitude 36 m Above Sea Level
Composite GPSDateTime 2008:12:25 11:24:24
Composite GPSLatitude 44 deg 45′ 15.21″ N
Composite GPSLongitude 0 deg 34′ 31.58″ W
Composite GPSPosition 44 deg 45′ 15.21″ N, 0 deg 34′ 31.58″ W
Composite SubSecDateTimeOriginal 2008:12:25 13:21:45.00

…Et bien entendu, il est très facile d’exploiter cela avec un outil cartographique en local, tel que l’excellent GeoSetter dont une version en français est disponible :

D90+GPS_2

D90+GPS_3
ou bien via l’outil carte de Flickr (là, rien à faire de particulier, les photos sont positionnées par défaut lors du chargement).

Tout cela peut aussi ce faire via son Firefox avec IExif, Dans la monde Google avec Picasa et Google Earth, etc.

Si le format EXIF vous pose un problème, il est possible de stocker ces données dans du MIX. C’est évidement plus complexe pour l’exploitation, du moins pour le grand public.

Extraire ce type de méta-données avec du Perl est très facile : le programme perl exiftool de Phil Harvey est très bien pour cela : une petit ligne du type “Exiftool -exif:GPSAltitude -h  img > mes_exifs.html” et l’on récupère l’altitude d’une série d’images dans un tableau HTML.

Avec du PHP c’est possible aussi : il faut charger les extensions php_mbstring et exif (dans cet ordre) dans le php.ini ; ensuite il est possible d’utiliser la fonction exif_read_data.

Bref, bientôt TOUS les appareils géo-tagueront en automatique et l’on ne comprendra pas pourquoi les photos anciennes ne le sont pas (les documentalistes vont avoir du travail) : ainsi les interfaces d’intérogations vont évoluer : un fond de carte, des outils de sélection (ronds, carrés, etc.), des plots de couleurs, des requêtes externes, des réponses aux questions qui s’afficheront sous la forme d’un chapelet de marqueurs. Au CN2SV, nous avons commencé à le faire des cartes et des atlas anciens, j’imagine ce que nous allons faire dans quelques années !

Capture d'écran de l'application CN2SV pour les géodonnées

Mais j’y pense… le temps d’écrire ce billet et tout cela doit déjà exister, j’en suis sûr (et en open-source ?). En attendant la suite, j’espère que les artistes vont trouver des applications moins “utiles” que celles décrites ici. Je m’en retourne à mon mash-up de noël.

Joyeuses fêtes,

Stéphane.


Ecrit par Stéphane POUYLLAU le 26 décembre 2008 :: Classé dans digital humanities, mes réalisations
Tags :: , , , , , , , ,

Dans le guidon

Bonjour,

Aller, la tête dans le guidon et on monte ! la mise en place de plateformes web et de wikis pour les digitals humanities sont en cours. Mais il me faudrait des journées de 48h pour avoir le temps de bloguer en ce moment ! Vivement les vacances de noël pour écrire et faire des photos !

A bientôt,

Stéphane.


Ecrit par Stéphane POUYLLAU le 5 décembre 2008 :: Classé dans en général

Digital humanities en France : le temps des pionniers

L’Université d’été du TGE ADONIS (Lyon, 3-5 septembre 2008) est la première réunion structurante de la communauté des digital humanities (digital humanities) en France. Elle est probablement le point de départ d’un formidable travail commun, à un niveau national, que l’ensemble des acteurs de ce domaine s’efforcent de construire avec le soutien de certains grands acteurs nationaux tel que le Centre national de la recherche scientifique mais également avec l’appui de collègues étrangers.

Pour la première fois, les producteurs de données numériques, les éditeurs électroniques, certaines institutions de recherche, des chercheurs, des ingénieurs et des centres de calcul et de stockage de données étaient réunis afin de réfléchir à l’amélioration des accès aux documents numériques primaires (sources) et secondaires (publications, revues, ouvrages numériques ; archives ouvertes d’articles).

Les digital humanities, discipline ancienne1 finalement, offrent aux chercheurs et aux enseignants des méthodes, des processus de travail, des briques technologiques et des outils, des infrastructures dédiées leurs permettant de structurer les matériaux afin de mieux les appréhender sur le plan scientifique. Actuellement, l’environnement de la recherche en SHS devient numérique : les données pour la recherche (primaires et secondaires) sont accessibles de façon numérique, certains documents sont nativement des originaux numériques (photographie, données d’IRM en anthropologie, etc.) ; les catalogues de bibliothèques et d’archives sont presque tous « en ligne » et il devient possible de commander des copies numériques de documents ; le bureau du chercheur/enseignant est numérique (missions, rapports, emails, cours, environnement numérique de travail dans les Universités) devient numérique. Faites la somme des services numériques que vous utilisez sur une semaine et vous verrez. La recherche en SHS, comme partout, utilise le numérique. Certains projets de recherche multi-équipes, géographiquement éclatés, ne pourraient pas fonctionner si des outils de partage de données, d’annotations croisées, de visio-conférences, n’existaient pas. Il est toujours possible de travailler seul, en bibliothèques ou en archives, avec du papier, pour le coté « vintage », presque une image d’épinal, mais l’ordinateur portable est aujourd’hui un classique. J’inclus dans le coté « vintage » l’utilisation du numérique pour reproduire le modèle de la bibliothèque : il y aurait danger à ce contenter de cet horizon car les digital humanities doivent aller plus loin et cela passe par le développant de services fonctionnels qui ne pourront être que collectifs à l’image des grandes infrastructures des sciences physiques. L’évolution des digital humanities se fait pas palier et l’école d’été du TGE ADONIS en est un selon moi. Ceci m’amène à réfléchir sur les différents « époques » de l’évolution de cette discipline, quels sont les ages des digital humanities en France ?

  • L’époque 1 correspond à la migration de la bibliothèque du réel au virtuel par la numérisation et par l’utilisation d’un vecteur : le web (mettre le catalogue en ligne ; mettre des données en ligne en liaison avec ce catalogue) ; c’est la gallicalisation des bibliothèques.
  • L’époque 2 débute avec l’XML-isation des corpus textuels et iconographiques : TEI ou XMP encapsulé dans de l’EAD ou du METS et exposé via de l’OAI-PMH. Cette époque est aussi celle du « CMS roi » et de la base de données utilisant des SGBDR open-source pour le stockage des données et méta-données : souvent pour palier les faiblesses du XML en la matière.
  • L’époque 3 est/sera celui des grilles : grilles de données (virtualisation) ; grille de calcul (dont le besoin en archéologie 3D est déjà une réalité) ; grilles logicielles et ESB (pour Enterprise Service Bus) tel que nous le réalisons dans le cadre du TGE ADONIS.
  • L’époque 4 sera (peut-être, sûrement même) celui du web des machines qui échangerons du sens (voir les travaux de Got).

La particularité des digital humanities est que tout le monde n’est pas obligé de changer « d’époque » en même temps, il y a des temps différents qui ont tendance à créer des sous-époques. Mais globalement, sur le plan collectif, je pense que nous sommes entre l’époque 2 et 3.

Stéphane.


1 Je renvois le lecteur à la présentation de Lou Burnard lors de l’école thématique du CNRS de Fréjus organisée par les centres des ressources numériques CN2SV, TELMA et CRDO disponible sur www.cn2sv.cnrs.fr/ecole-sources-num


Ecrit par Stéphane POUYLLAU le 11 novembre 2008 :: Classé dans digital humanities
Tags :: ,

Bibnum : une bibliothèque numérique et virtuelle des textes fondateurs de la science

Bonsoir,

Notre collègue, Alexandre Moatti, vient de lancer la bibliothèque numérique bibnum qui se positionne sur la mise à disposition des principaux textes scientifique antérieurs à 1940 pour un large public (mais aussi pour les étudiants et les scientifiques). Ces textes fondateurs pour la science, sont tous accompagnés d’un commentaires écrit par des scientifiques actuels. Comme l’annonce l’édito du site les textes sont  “commentés par des scientifiques contemporains qui souhaitent partager leur intérêt pour ces textes et analysent leur impact dans la science et la technologie actuelle”.

Dans la consultation, la navigation par onglet permet, très clairement, de passer du texte au commentaire, une bibliographie et une webographie sont toujours associées aux textes édités. Un vrai beau travail mariant la documentation, l’édition, la science et l’histoire.

Utilisant la technologie “ipaper” issue du projet scribd.com, très belle, rapide, encapsulable, il est également possible d’avoir les références bibliographiques (du texte et du commentaire) dans un format “zotero compatible”, en XML et au format BibTex. L’embedding est un classique maintenant.

Il est un peu dommage que les textes, disponible en PDF “cherchable” (image sur texte, mais assez dont l’assemblage est assez curieux), ne soient pas également disponibles dans un format “ouvert” (XML balisé selon la TEI par exemple) au téléchargement. A suivre…

Stéphane.


Ecrit par Stéphane POUYLLAU le 30 octobre 2008 :: Classé dans digital humanities et archives, e-rudition

digital humanities : le tournant et la eSHSgrid

L’école thématique sur la préservation et diffusion numériques des sources de la recherche en sciences humaines et sociales, organisée par les centres de ressources numériques du CNRS propose une formation aux humantiés numériques (digital humanities) en matière d’édition de sources pour la recherche scientifique en sciences humaines et sociales. Les 30 personnes qui sont ici suivent plusieurs ateliers sur l’informatisation des données manuscrites, iconographiques, orales.

La communauté des digitals humanities se structure, se parle, travaille. La mise en ligne de collections iconographies, la création d’entrepôts de données “images” et “visuelles” (y compris les modèles 3D) n’est plus envisagé sans la structuration de l’information : fichiers RAW, fichiers TIF, vignettes à la volée en JPEG, calculateurs de rendu, métadonnées XMP (ou encore en IPTC), EXIF, MIX, METS, DC. Belle avancée ! Les choses doivent encore se préciser mais le numérique est aujourd’hui au cœur d’un très grand nombre , c’est le “digital turn” ou tournant digital proposé par Paul Bertrand. Les sources numérisées vont laisser la place - de plus en plus - aux sources numériques structurées, c’est aujourd’hui une quasi-réalité et presque du passé et le XML, les normes, l’open-source sont au coeur du digital turn. Un e-chercheur sera l’utilisateur de ces corpus hybrides structurés, virtualisés, accessibles à tous les chercheurs au travers, tel les données du LHC, d’une eSHSgrid et constitué, non pas pour une utilisation individuelle, mais génératrice de publications multiples, papiers, mais aussi de plus en plus elles-mêmes électroniques. Cette eSHSgrid garantie le socle d’accessibilité aux données.

Le wiki de l’Ecole est actualisé en permanance par les participants.

Stéphane.


Ecrit par Stéphane POUYLLAU le 22 octobre 2008 :: Classé dans digital humanities, e-rudition
Tags :: , , ,

Dublin Core 2008 à Berlin

Le DC2008, organisé par le Competence Centre for Interoperable Metadata (KIM), le Max Planck Digital Library (MPDL), la Göttingen State and University Library (SUB), la German National Library (DNB), Humboldt Universität zu Berlin (HU Berlin) et le Dublin Core Metadata Initiative avec le concours de Wikimedia Deutschland, a permis de faire un panorama complet des utilisations possibles des deux jeux principaux de méta-données Dublin Core (simple et qualifié). Plusieurs projets, issus principalement des communautés scientifiques, de celles des musées et du monde des bibliothèques (nationales ou universitaires) ont été présentés sous la forme de séances plénières, de workshops et de posters.

Après première journée dédiée à des d’ateliers d’introduction allant de l’histoire du DC, à la présentation de la mise en pratique du DC, les sessions plénières des mardi, mercredi, et jeudi ont permis de voir que le DC est aujourd’hui au coeur des outils d’inter-opérabilités développés par les producteurs de données que sont les grandes bibliothèques et le monde universitaire principalement. A plusieurs reprise, le DC a été mentionné comme étant le ciment permettant de mettre en oeuvre les échanges de méta-données, la communication de ces dernières et ceci à très grande échelle : pour des réservoirs ayant plusieurs centaines de milliers d’enregistrements. Le DC qualifié semble de plus en plus concurrencer le MARC par exemple : il est presque devenu natif dans les applications de gestion des bibliothèques.

Le DC est également au centre des problématiques du web sémantique. Plusieurs présentations sur ce sujet (principalement venant des USA) ont eu lieu et ont démontré que le web sémantique doit, pour ce développer, s’appuyer sur des technologies et méthode tel que le RDF associé au DC. Dans la construction des outils – et méthodes – du web sémantique le DC occupe une place importante car il agit comme un point de référence, une brique fondamentale de ce très grand chantier. Cependant, peu d’applications fonctionnelles ont été présentées et certains projets sont encore très expérimentaux.

On peut noter une forte progression de l’utilisation du DC dans les applications du web social et dans les applications web professionnelles. Le DC est de plus en plus couplé aux systèmes utilisant le RDF, le RDFa et dans sa sous-branche : le FOAF, etc.. Un doute subsiste cependant quant au retour sur investissement et sur la qualité en matière d’indexation collaborative grand public de corpus iconographique (ex. du SFMOMA : www.sfmoma.org).

Le développement du DC dans les années qui viennent suivra l’évolution des méta-langages que sont le RDF et toutes ces déclinaisons. Le vecteur OAI-PMH est aussi fortement mentionné par les utilisateur du DC.

Le DC s’impose dans les grands catalogues internationaux et dans les protocoles d’échanges entre bibliothèques et besoins universitaires ou de recherche.

Stéphane.

PS : A noter le peu de présence des Français, surtout venant des grandes bibliothèques, aucune bibliothèque universitaire représentée, les acteurs classiques de l’IST n’y était pas non plus, heureusement l’ABES était là et bien sur le CNRS et le TGE ADONIS que je représentais indirectement.


Ecrit par Stéphane POUYLLAU le 4 octobre 2008 :: Classé dans digital humanities
Tags :: ,

Le point sur le DC

Bonjour,

En direct de Berlin (où il pleut) ou va s’ouvrir dans quelques minutes le DC2008 : la conférence internationnale sur le Dublin Core et sur les applications qui utilisent ce format de métadonnées. Le programme est dense tant le sujet est vaste, mais pour une fois, pas besoin de courir à l’autre bout de la planète pour assister à cette conférence qui se réunie depuis la création du Dublin Core.

Stéphane.


Ecrit par Stéphane POUYLLAU le 23 septembre 2008 :: Classé dans en général
Tags ::