[Apprentissage] de Wikipédia à LaTeX ou autre

Autres projets et contributions
Avatar de l’utilisateur
Caocoa
yeomen
Messages : 208
Inscription : jeu. 11 nov. 2010, 16:19

[Apprentissage] de Wikipédia à LaTeX ou autre

Message par Caocoa »

Salut :)

Je cherche à transformer une collection d'articles wikipedia en un document tex. En gros j'aimerai un truc léger et KISS à qui l'on donnerait des urls d'articles et une uri de sortie et qui renverrait un code LaTeX et un dossier contenant des images, s'il y en a.

Comme je suis paresseux j'ai commencé par chercher un truc tout fait et j'ai trouvé ceci et cela mais ça ne correspond pas vraiment à ce que je cherche : c'est lourd, et pour l'un je n'ai pas trouvé les sources. Je me suis donc renseigné sur le moyen de faire ça moi-même (enfin, avec l'aide de vos conseils) et j'ai fait connaissance avec l'API Wikimedia de Wikipédia (dont d'ailleurs la doc est ici). J'ai découvert que sed c'est bon, mangez-en. Ce fichier traîne sur internet et je pense qu'il peut m'être utile.

Pour apprendre plein de truc (d'où la balise) j'ai envie d'écrire un script à qui on donnerait des urls en arguments et qui en ferait ça :
  • Lecture des urls pour vérifier qu'elles pointent bien vers un article Wikipédia ;
  • Récupération des articles via l'Api de mediawiki de wikipedia (reste à déterminer le format de sortie le plus efficace)
  • Utilisation de sed pour transformer du Mark-up en LaTeX (ou en un autre format, seul la commande de traduction change)
  • Création d'un doc LaTeX qui contient ces articles et utilisation d'un document maître pour plus de propreté.
Je pense réellement que je peux apprendre avec ça, vu que :
  • Je maîtrise bien LaTeX, en ayant toutefois un niveau inférieur à celui d'un TeXnicien. C'est amplement suffisant, vu que c'est un langage de sortie.
  • Je suis en train d'apprendre à me servir de sed
  • Je n'ai encore jamais écrit de script bash, il faut bien commencer un jour.
  • Je peux récupérer le code Mark-up associé à un article.
  • J'ai déjà quelque chose (dont il faut vérifier la qualité) pour obtenir un article en LaTeX.
Donc voilà. Si quelqu'un connaît un script ou un outils qui fait ce que je veux (et donc ruiner ma motivation :mrgreen: ), qu'il parle ! Pareil pour celui qui a déjà essayé et qui n'a pas réussi.
Linux un noyau, Windows des pépins :mrgreen: | Manifeste pour la liberté des programmeurs, par Bill Gates.
Ma configuration
Avatar de l’utilisateur
cdemoulins
Chu Ko Nu
Messages : 310
Inscription : mar. 11 mars 2008, 04:15
Localisation : Paris

Re: [Apprentissage] de Wikipédia à LaTeX ou autre

Message par cdemoulins »

Salut,
Personnellement, je ferais ça avec du XSLT en prenant la sortie XML et en générant du latex.
C'est très probablement faisable avec du shell+sed+curl/wget (pour le téléchargement) mais si tu n'es pas familier tu vas bien galérer.

Peut-être qu'en perl tu pourrais t'en sortir mais c'est pas moi qui viendrais t'aider là.
Avatar de l’utilisateur
vlamy
yeomen
Messages : 268
Inscription : ven. 20 juil. 2012, 15:19
Localisation : Grenoble

Re: [Apprentissage] de Wikipédia à LaTeX ou autre

Message par vlamy »

cdemoulins a écrit :Salut,
Personnellement, je ferais ça avec du XSLT en prenant la sortie XML et en générant du latex.
Beaucoup trop propre comme technique :humour:
Cela dit, ça doit marcher, mais je ne vois pas comment générer du tex ou latex avec XSLT....

@Caocoa : je ne connais pas de script qui fait ça, mais d'après ce que j'ai compris : tu as déjà la partie la plus dure à mon sens : le script sed :) . Bien entendu il faudra sûrement le retoucher, donc tu ne seras pas déçu du voyage je pense, mais c'est mieux que de partir de rien :)
Après si tu veux devenir un vrai tonton tu peux faire du awk, c'est encore moins intuitif que sed mais plus puissant, et tu pourras à être considéré comme un potentiel jeune padawan par les vieux administrateurs système barbus 8)

Pour ce qui est de la récupération des pages web, cela ne devrait pas être trop dur je pense, mais si t'as besoin d'aide, n'hésites pas alimenter ce thread !

Finalement, que tu partes en ShellScript, Perl, Python, Ruby ou autre ne change pas beaucoup je pense. Mon conseil : prends le langage qui te fait plaisir, même si c'est du Ocaml :mrgreen:
Avatar de l’utilisateur
Caocoa
yeomen
Messages : 208
Inscription : jeu. 11 nov. 2010, 16:19

Re: [Apprentissage] de Wikipédia à LaTeX ou autre

Message par Caocoa »

Bon bah du coup je vais faire une appli windows 8 en .Net, c'est tout de même plus propre.
Mais ne vous inquiétez pas, je vous donnerai 15 jours d'essai gratuits :-)
Linux un noyau, Windows des pépins :mrgreen: | Manifeste pour la liberté des programmeurs, par Bill Gates.
Ma configuration
Avatar de l’utilisateur
FoolEcho
Maître du Kyudo
Messages : 10707
Inscription : dim. 15 août 2010, 11:48
Localisation : Basse-Normandie

Re: [Apprentissage] de Wikipédia à LaTeX ou autre

Message par FoolEcho »

vlamy a écrit :
cdemoulins a écrit : Salut,
Personnellement, je ferais ça avec du XSLT en prenant la sortie XML et en générant du latex.
Beaucoup trop propre comme technique :humour:
Cela dit, ça doit marcher, mais je ne vois pas comment générer du tex ou latex avec XSLT....
C'est pourtant le truc à faire plutôt que passer par bash ou autre. :D
Cf. http://www.w3.org/2004/04/xhlt91/ pour exemple.

Ton script bash sera "juste" bon à récupérer les urls et lancer xsltproc. 8)
«The following statement is not true. The previous statement is true.» :nage:
Avatar de l’utilisateur
vlamy
yeomen
Messages : 268
Inscription : ven. 20 juil. 2012, 15:19
Localisation : Grenoble

Re: [Apprentissage] de Wikipédia à LaTeX ou autre

Message par vlamy »

@caocoa : Si c'est le coup des vieux barbus qui t'a fait peur, je retire ! C'était une blague :humour:
Après .Net plus propre, ça se discute :)
FoolEcho a écrit : C'est pourtant le truc à faire plutôt que passer par bash ou autre. :D
Cf. http://www.w3.org/2004/04/xhlt91/ pour exemple.
Sauf si le but est d'apprendre le bash :copain:
Mais je suis d'accord, c'est bien mieux en XSLT et autres XMLeries du même genre.
Et y a d'autres moyens rigolos pour apprendre à faire du bash+sed.
Avatar de l’utilisateur
Caocoa
yeomen
Messages : 208
Inscription : jeu. 11 nov. 2010, 16:19

Re: [Apprentissage] de Wikipédia à LaTeX ou autre

Message par Caocoa »

... :copain: :humour:
Non, évidemment je fais quelque chose de libre ! Je n'ai qu'un système libre sur mon ordinateur, comment pourrais-je faire du .Net ?
Linux un noyau, Windows des pépins :mrgreen: | Manifeste pour la liberté des programmeurs, par Bill Gates.
Ma configuration
Avatar de l’utilisateur
FoolEcho
Maître du Kyudo
Messages : 10707
Inscription : dim. 15 août 2010, 11:48
Localisation : Basse-Normandie

Re: [Apprentissage] de Wikipédia à LaTeX ou autre

Message par FoolEcho »

vlamy a écrit :Sauf si le but est d'apprendre le bash :copain:
:non:
s/apprendre le bash/utiliser sed/. :copain:
«The following statement is not true. The previous statement is true.» :nage:
Répondre