Archlinux.fr [Forums]

Salut à tous,

j'ai un certain nombre d'articles que j'aimerais numériser et j'aimerais avoir quelques avis sur les différentes approches.
Mon idée est qu'en numérisant je puisse avoir toujours une copie quelque part de ces articles. Il s'agit principalement d'articles de voyages.
Comme j'en ai beaucoup, une fois numérisées, je pourrais simplement rechercher dans les documents comme on recherche dans un pdf
pour trouver tout ce que je veux au lieu
de regarder toutes les pages du classeur. Cela demandera beaucoup de temps alors j'aimerais d'abord faire l'estimation du travail demandé et
ensuite voir le pour et le contre.

Après avoir regardé à gauche à droite, voici mes idées et mes questions:

- je n'ai pas envie de tout recopier. Donc je pensais numériser les documents et ensuite utiliser la reconnaissance de texte. Pour cela tesseract me paraît pas mal. Est-ce que quelqu'un a des tuyaux concernant l'optimisation pour la reconnaissance de texte ? Genre des paramètres à adapter pour la reconnaissance ou augmenter le contraste. Ensuite il y a des photos. Y'a-t-il grosso modo une règle sur le nombre de dpi à utiliser pour scanner ? Une sorte de guide ? Genre 300 c'est bien, 800 excellent, etc. Je n'ai aucune idée.
- ensuite je pensais faire des pdf avec chacun des articles. Là je peux utiliser Latex.
- finalement il faudrait sauvegarder le tout quelque part pour pouvoir ensuite faire des recherches sur l'ensemble des documents. J'ai pensé à une base de donnée, genre MYSQL, mais si j'y introduis des pdf (possible ?), je pense qu'après je ne pourrai plus chercher dans le texte. Il me faudrait archiver tous les documents histoire de pouvoir faire une recherche dans le texte, histoire de trouver par exemple tous les articles concernant l'Italie. Ou alors en plus de rechercher le texte un système avec des tags. Sauvegarder dans la base de donnée le texte et les images séparées ?

Ce ne dois pas être un système tout fait, s'il faut coder je me débrouillerai.

Merci.

Pour information KDE cherche nativement dans un grand nombre de document dont les PDF.
Il suffit de lui dire d'indexer le dossier ou tu as mis tes fichiers.

Sinon si tu veux implémenter ta propre solution avec mysql, je verrai bine un truc comme cela :

Table fichierPDF: fileid (INTEGER (PK)), file (blob)
Table contenu : [fileid, numpage] (PK), txtpage (TEXT (full index))

Après pour la reconnaissance de texte, j'avais essayer il y a quelques années et il y avait pas mal de rate, mais maintenant il existe des logiciels très performant

benjarobin a écrit :Pour information KDE cherche nativement dans un grand nombre de document dont les PDF.
Il suffit de lui dire d'indexer le dossier ou tu as mis tes fichiers.

Hhhhmmmm, je vais peut-être déjà essayer cette solution-là. Tout numériser demandera déjà pas mal de temps!

Sinon si tu veux implémenter ta propre solution avec mysql, je verrai bine un truc comme cela :

Table fichierPDF: fileid (INTEGER (PK)), file (blob)
Table contenu : [fileid, numpage] (PK), txtpage (TEXT (full index))

Je garde ça en tête. Merci!

Sinon en regardant pour le scan il semblerait que 300 dpi soit une bonne résolution. J'ai vu qu'une règle en général serait de doubler le nombre de dpi si on double la taille de l'image. Est-ce que quelqu'un peu plus ou moins confirmer ?

Sinon en regardant pour le scan il semblerait que 300 dpi soit une bonne résolution. J'ai vu qu'une règle en général serait de doubler le nombre de dpi si on double la taille de l'image. Est-ce que quelqu'un peu plus ou moins confirmer ?

Non, en fait le dpi c'est la résolution que tu utiliseras lorsque tu l'imprimeras.

Pour faire simple si tu dois scanner du texte sans plus et le consulter uniquement sur ton écran tu peux même utiliser 75 dpi (ton fichier sera très light au niveau poids).
Inconvénient, on ne sait jamais ce dont on en fera dans disons 1, 2 ou 5 ans. Et pour pouvoir le reprendre il faudra passer par un ocr avec bien sur la perte de la mise ne page et des images.
300 dpi, c'est la moyenne pour pouvoir imprimer du texte et de l'image à partir de ton scan.
800 à 1500 dpi est seulement pour imprimer en haute résolution du genre une photo que tu voudrais retoucher après tu auras même la possibilité de l'imprimer à 300dpi.
http://fr.wikipedia.org/wiki/Point_par_pouce

Bref, en scannant le plus tu pourras redescendre sur la résolution lors d'une impression. Par contre une photo scannée à 75 par exemple tu ne pourras jamais l'augmenter sans de grosses pertes.

Refuznik a écrit :Inconvénient, on ne sait jamais ce dont on en fera dans disons 1, 2 ou 5 ans. Et pour pouvoir le reprendre il faudra passer par un ocr avec bien sur la perte de la mise ne page et des images.

Ben en même temps si la résolution 75dpi te suffit de lire le document sur l'écran, c'est ton document sera également lisible à l'impression, un peu moche mais tout aussi lisible (les images seront plus moche car une imprimante n'utilise que 4 couleurs). Mais bon c'est toujours mieux, je pense, que de scanner à une résolution supérieure pour faire de l'ocr.
Un texte généré par l'outil texte sous Gimp à 75dpi sera meilleur qu'un texte issu d'un scan à 75dpi.

http://ubunteros.tuxfamily.org/spip.php?article148

Certains tests (en anglais) ont montré qu’une image de 400 dpi donnait des résultats plus que décents !

Ok, merci à tous pour toutes ces infos. A présent je vais retrousser mes manches et m'y mettre

En cherchant encore par-ci par-là je suis tombé sur ceci:

http://www.howtoforge.com/ocr_with_tess ... _ubuntu704

Je ne sais pas si toutes les opérations sont encore nécessaires, mais ça donne déjà une idée de base.
Si ça peut être utile à quelqu'un d'autre.

c'est pas mal du tout gscan2pdf, par contre vous savez si c'est possible de faire un pdf ou un fichier djvu contenant à la fois l'image, et le texte OCRisé par dessus, comme sur google livre ?

farvardin a écrit :c'est pas mal du tout gscan2pdf, par contre vous savez si c'est possible de faire un pdf ou un fichier djvu contenant à la fois l'image, et le texte OCRisé par dessus, comme sur google livre ?

J'avais essayé, mais ça n'a pas marché. Si c'est possible je ne sais pas comment faire. J'avoue aussi ne pas avoir cherché beaucoup. Si jamais, j'ai l'impression qu'effectuer la reconnaissance de texte en ligne de commande est plus rapide. C'est peut-être dû à des options supplémentaires qu'utilise gscan2pdf.

en ligne de commande j'ai trouvé cela, cela fonctionne, en revanche je ne peux sélectionner et copier le texte ocr-isé :
http://en.wikisource.org/wiki/Help:DjVu ... _Tesseract

Mais une recherche avec okular ou evince indique bien que le texte est reconnu.

Malheureusement, j'ai pas mal de fichiers scannés en tiff, et si on les assemble avec tiffcp, cjb2 n'arrive pas à convertir en un fichier djvu multiples. Faudrait faire un script pour traiter cela individuellement.

ce script devrait permettre de placer le texte derrière l'image, mais je n'ai pas testé encore et ça me semble fastidieux http://chunchung.blogspot.com/2008/06/a ... -file.html

Voir également http://theowoll.netau.net/ où ils évoquent le projet de google ocropus

Pour simplement rajouter les infos de texte sur une liste de tiff existants dans le répertoire actuel, et rassembler le tout dans un document unique en djvu :

Code : Tout sélectionner

for A in *.tif* ; do cjb2 $A $A.djvu ; done
n=0; for I in *.djvu ; do n=$((n+1)) ; result=`printf 'doc%04d.djvu' $n` ; mv "$I" $result; done
for J in *.djvu ; do ~/scripts/djvu_ocr.sh "$J" ; done
djvm -c merged_doc.djvu doc*.djvu

où djvu_ocr.sh est le script ici : http://en.wikisource.org/wiki/Help:DjVu ... _Tesseract

On peut le modifier et modifier la partie avec $lang = "fra"; au lieu de $lang = "eng"; pour optimiser la reconnaissance en français, mais parfois cela peut être pire pour certains mots.

On peut extraire du texte d'un document djvu avec OCR en utilisant l'outil djvutxt.

En revanche, KDE n'a pas l'air de trouver des mots contenus dans ce document (si j'utilise l'outil de recherche de dolphin par exemple)

Vraiment bien ce format djvu, je ne m'y étais jamais trop intéressé, mais la qualité est très bonne, et cela réduit beaucoup la taille, même par rapport à du tiff déjà bien peu lourd en poids d'image. Par exemple j'avais scanné 3 feuilles A4, les tiff faisaient 175 ko à eux 3, le document djvu résultant fait 50 ko

Tant que j'y suis :

- lire les meta informations d'un document :

Code : Tout sélectionner

 djvused merged_doc.djvu -e 'print-meta'

- modifier (remplacer) les metadata d'un document :

Code : Tout sélectionner

 djvused merged_doc.djvu -e 'set-meta meta.txt' -s

- en une seule opération :

Code : Tout sélectionner

 echo -e "Title \"Titre du document\" \nAuthor \"Auteur\" \nSubject \"sujet et mots clés\" " > /tmp/meta.txt ; djvused merged_doc.djvu -e 'set-meta /tmp/meta.txt' -s

- retirer les metadata :

Code : Tout sélectionner

djvused merged_doc.djvu -e 'remove-meta' -s

Archlinux.fr [Forums]

[Archivage] Numérisation et classements de données (résolu)

[Archivage] Numérisation et classements de données (résolu)

Re: [Archivage] Numérisation et classements de données

Re: [Archivage] Numérisation et classements de données

Re: [Archivage] Numérisation et classements de données

Re: [Archivage] Numérisation et classements de données

Re: [Archivage] Numérisation et classements de données

Re: [Archivage] Numérisation et classements de données

Re: [Archivage] Numérisation et classements de données (résolu)

Re: [Archivage] Numérisation et classements de données (résolu)

Re: [Archivage] Numérisation et classements de données (résolu)

Re: [Archivage] Numérisation et classements de données (résolu)

Re: [Archivage] Numérisation et classements de données (résolu)