MathML et reconnaissance optique de formules mathématiques

Bonjour,
Après une semaine passée à installer le DataCenter du pôle HSTL de mon labo, J’ai travaillé hier sur l’OCéRisation de formules de mathématiques. Après un peu de veille, j’ai vu que cela n’était pas très facile et que les logiciels commerciaux classiques ne le permettait pas.

J’ai cependant trouvé une suite d’outil : Infty Project for Mathematical Document Recognition and Analysis, User Interface,Accessibility of Scientific Documents. Il s’agit d’une suite d’outils créé par Masakazu Suzuki (Kyushu University, Japon). J’ai testé InftyEditor et à première vue c’est très puissant. Cependant le module d’acquisition depuis un scanner ne fonctionne pas sur mon poste (j’ai pourtant un très bon scanner). Il faut donc scanner les documents indépendement du proscessus d’ORC. Autre limite, les formats possibles en entrée de chaîne : seul le TIFF binaire non compressé est possible. C’est un peu dommage car il semble que d’autres formats soient acceptés (PNG, JPEG, GIF), mais il s’agit peut-être un problème local venant de mes images.

L’intérêt principal reste la puissance de l’ORC et les formats de sortie : XML pour InftyEditor, LaTeX, MathML, PDF, etc. Mais le GROS problème c’est que les accents français ne sont pas gérés. C’est bien dommage. Mais c’est un outil à suivre…

Stéphane.

MathML

Bonjour,
Mes activités sont très « 2.0 » (et complexes) en ce moment : je suis pris entre le temps de rédaction du bilan d’activité du CN2SV et par la mise en place d’entrepôt OAI pour le CRHST mais aussi, par la vie des plateformes web du pôle HSTL, je n’ai plus une minute pour ce blog depuis 8 jours. De plus, les deux derniers billets sortent un peu du thème original de se blog (racontrer, au jour le jour, les aventures d’un ingénieur d’études qui fait du web depuis 1995). Je reviens vers le coeur du métier avec un court (trop court) billet sur une grammaire XML que j’utilise pour la publication de sources comportant des formules mathématiques : le MathML.

1) Le MathML 2.0 : Qu’est-ce ?

Il s’agit langage dérivé du XML permettant d’afficher et d’assurer le traitement de formules de mathématique sur le web. Depuis le 21 février 2001, MathML est devenu une recommandation du W3C.

2) Comment lire le MathML ?

L’un des stagiaires passé au CRHST en 2005 a résumé les solutions de lecture dans une page très bien faite. J’en reprends ici les points principaux.

Certaines pages de ce site requièrent l’affichage d’expressions scientifiques (équations, fractions, symboles mathématiques…).
Utiliser à cet effet des images montre des limites : elles ne sont pas forcément bien dimensionnées ni bien ajustées par rapport au texte. De plus, cela est très lourd à gérer de devoir insérer une image dès la moindre fraction.
La solution est d’utiliser le langage MathML, langage dérivé du XML et recommandé par le W3C. Les navigateurs compatibles devraient comprendre ce langage. Pour Internet Explorer, des plug-in existent (un plug-in est un programme qui apporte de nouvelles fonctionnalités à un logiciel existant).
Le tableau ci-dessous présente la compatibilité des navigateurs les plus utilisés.

  Internet Explorer Netscape Navigator Mozilla / Firefox Opéra Safari Amaya
Windows 5.0 & Techexplorer
5.5 & MathPlayer | Techexplorer
6.0 & MathPlayer | Techexplorer
6.1 & Techexplorer
7.0 ou +
0.9.9 ou + / toute version 7.2 NON pas de support Voir ci-
dessous
Mac OS 5.0 & Techexplorer 6.1 & Techexplorer
7.1 ou +
0.9.9 ou + / toute version 7.2 NON NON
Linux pas de support 6.1 & Techexplorer
7.0 ou +
0.9.9 ou + / toute version 6.0 NON pas de support

Quelques précisions :
1. MathPlayer compense utilement la défaillance d’Internet Explorer ; il est diffusé gratuitement par Design Science.
2. Techexplorer est un plug-in qui s’ajoute à la plupart des navigateurs, sur Windows, Mac et Linux ; anciennement développé par IBM, il est désormais distribué gratuitement par Integre pour un usage personnel. Voir ici pour plus d’informations.
3. Amaya est l’éditeur et navigateur Web officiel du W3C qui permet d’éditer très simplement des pages contenant du texte, des graphiques et des expressions mathématiques (en MathML). Il est disponible pour Windows 98, NT/2000/XP, Unix, Linux et MacOSX. Pour plus d’informations, aller sur le site officiel d’Amaya ou sur une page en français.

Concernant Internet Explorer,vous pouvez télécharger MathPlayer pour Windows.
Bien que nous ne vous le recommandions vraiment pas (risques d’erreurs à l’affichage du MathML), vous pouvez aussi télécharger Techexplorer pour Windows, ou Techexplorer pour Mac OS 8.6 à 9.2 et Mac OS X. Mais découvrir Mozilla demeure encore la meilleure solution !

Polices scientifiques pour Mozilla/Netscape

Afin que les navigateurs compatibles MathML affichent correctement les expressions mathématiques, vous devez éventuellement installer sur votre poste quelques polices de caractères scientifiques.
N.B : Si vous utilisez Internet Explorer avec MathPlayer sous Windows, l’installation de polices supplémentaires n’est pas nécessaire.

Pour plus de détails, voir la page dédiée aux polices pour MathML sur le site de Mozilla.

3) Ca ressemble à quoi ?

Je viens de terminer la relecture de la théorie mathématique d’André-Marie Ampère qui est encodée en MathML et en ligne sur le site @.ampère.

Joyeuses fêtes de fin d’année !

Stéphane.