Je cherche à transformer une collection d'articles wikipedia en un document tex. En gros j'aimerai un truc léger et KISS à qui l'on donnerait des urls d'articles et une uri de sortie et qui renverrait un code LaTeX et un dossier contenant des images, s'il y en a.
Comme je suis paresseux j'ai commencé par chercher un truc tout fait et j'ai trouvé ceci et cela mais ça ne correspond pas vraiment à ce que je cherche : c'est lourd, et pour l'un je n'ai pas trouvé les sources. Je me suis donc renseigné sur le moyen de faire ça moi-même (enfin, avec l'aide de vos conseils) et j'ai fait connaissance avec l'API Wikimedia de Wikipédia (dont d'ailleurs la doc est ici). J'ai découvert que sed c'est bon, mangez-en. Ce fichier traîne sur internet et je pense qu'il peut m'être utile.
Pour apprendre plein de truc (d'où la balise) j'ai envie d'écrire un script à qui on donnerait des urls en arguments et qui en ferait ça :
- Lecture des urls pour vérifier qu'elles pointent bien vers un article Wikipédia ;
- Récupération des articles via l'Api de mediawiki de wikipedia (reste à déterminer le format de sortie le plus efficace)
- Utilisation de sed pour transformer du Mark-up en LaTeX (ou en un autre format, seul la commande de traduction change)
- Création d'un doc LaTeX qui contient ces articles et utilisation d'un document maître pour plus de propreté.
- Je maîtrise bien LaTeX, en ayant toutefois un niveau inférieur à celui d'un TeXnicien. C'est amplement suffisant, vu que c'est un langage de sortie.
- Je suis en train d'apprendre à me servir de sed
- Je n'ai encore jamais écrit de script bash, il faut bien commencer un jour.
- Je peux récupérer le code Mark-up associé à un article.
- J'ai déjà quelque chose (dont il faut vérifier la qualité) pour obtenir un article en LaTeX.