[hocr] Hocrconverter
Publié : mer. 21 janv. 2015, 23:01
Salut à tous,
comme je scanne beaucoup, j'en suis venu à utiliser le format hocr. Je n'en avais pas directement besoin, mais je cherchais à améliorer la
reconnaissance du texte en corrigeant les fautes d'orthographes. En utilisant le format hocr, je peux corriger les erreurs. Le problème ensuite
était de convertir le format hocr en pdf. J'ai trouvé un script qui faisait cela, toutefois ce n'était que pour python2. Comme le mainteneur n'avais pas vraiment envie de faire les modifications nécessaires, j'ai forké le script et je l'ai modifié pour python3. Par la même occasion il y avait des problèmes lors de la création du pdf. Il pouvait arriver que le texte ne soit pas inséré dans le pdf. Je viens de faire les modifications nécessaires et à présent cela fonctionne bien.
J'ai créé un paquet: https://aur.archlinux.org/packages/hocrconverter-git
J'avais utilisé
vers une autre solution.
Ce script sera peut-être utile à quelqu'un. N'hésitez pas si vous avez des commentaires!
comme je scanne beaucoup, j'en suis venu à utiliser le format hocr. Je n'en avais pas directement besoin, mais je cherchais à améliorer la
reconnaissance du texte en corrigeant les fautes d'orthographes. En utilisant le format hocr, je peux corriger les erreurs. Le problème ensuite
était de convertir le format hocr en pdf. J'ai trouvé un script qui faisait cela, toutefois ce n'était que pour python2. Comme le mainteneur n'avais pas vraiment envie de faire les modifications nécessaires, j'ai forké le script et je l'ai modifié pour python3. Par la même occasion il y avait des problèmes lors de la création du pdf. Il pouvait arriver que le texte ne soit pas inséré dans le pdf. Je viens de faire les modifications nécessaires et à présent cela fonctionne bien.
J'ai créé un paquet: https://aur.archlinux.org/packages/hocrconverter-git
J'avais utilisé
hocr2pdf
du paquet exactimage, mais le résultat était mauvais. C'est pour cela que je m'étais tournévers une autre solution.
Ce script sera peut-être utile à quelqu'un. N'hésitez pas si vous avez des commentaires!