[hocr] Hocrconverter

Autres projets et contributions
Tristelune
Elfe
Messages : 516
Inscription : mer. 01 août 2007, 16:38

[hocr] Hocrconverter

Message par Tristelune » mer. 21 janv. 2015, 23:01

Salut à tous,

comme je scanne beaucoup, j'en suis venu à utiliser le format hocr. Je n'en avais pas directement besoin, mais je cherchais à améliorer la
reconnaissance du texte en corrigeant les fautes d'orthographes. En utilisant le format hocr, je peux corriger les erreurs. Le problème ensuite
était de convertir le format hocr en pdf. J'ai trouvé un script qui faisait cela, toutefois ce n'était que pour python2. Comme le mainteneur n'avais pas vraiment envie de faire les modifications nécessaires, j'ai forké le script et je l'ai modifié pour python3. Par la même occasion il y avait des problèmes lors de la création du pdf. Il pouvait arriver que le texte ne soit pas inséré dans le pdf. Je viens de faire les modifications nécessaires et à présent cela fonctionne bien.

J'ai créé un paquet: https://aur.archlinux.org/packages/hocrconverter-git

J'avais utilisé hocr2pdf du paquet exactimage, mais le résultat était mauvais. C'est pour cela que je m'étais tourné
vers une autre solution.

Ce script sera peut-être utile à quelqu'un. N'hésitez pas si vous avez des commentaires!

Répondre