[Archivage] Numérisation et classements de données (résolu)
-
- Elfe
- Messages : 516
- Inscription : mer. 01 août 2007, 16:38
[Archivage] Numérisation et classements de données (résolu)
Salut à tous,
j'ai un certain nombre d'articles que j'aimerais numériser et j'aimerais avoir quelques avis sur les différentes approches.
Mon idée est qu'en numérisant je puisse avoir toujours une copie quelque part de ces articles. Il s'agit principalement d'articles de voyages.
Comme j'en ai beaucoup, une fois numérisées, je pourrais simplement rechercher dans les documents comme on recherche dans un pdf
pour trouver tout ce que je veux au lieu
de regarder toutes les pages du classeur. Cela demandera beaucoup de temps alors j'aimerais d'abord faire l'estimation du travail demandé et
ensuite voir le pour et le contre.
Après avoir regardé à gauche à droite, voici mes idées et mes questions:
- je n'ai pas envie de tout recopier. Donc je pensais numériser les documents et ensuite utiliser la reconnaissance de texte. Pour cela tesseract me paraît pas mal. Est-ce que quelqu'un a des tuyaux concernant l'optimisation pour la reconnaissance de texte ? Genre des paramètres à adapter pour la reconnaissance ou augmenter le contraste. Ensuite il y a des photos. Y'a-t-il grosso modo une règle sur le nombre de dpi à utiliser pour scanner ? Une sorte de guide ? Genre 300 c'est bien, 800 excellent, etc. Je n'ai aucune idée.
- ensuite je pensais faire des pdf avec chacun des articles. Là je peux utiliser Latex.
- finalement il faudrait sauvegarder le tout quelque part pour pouvoir ensuite faire des recherches sur l'ensemble des documents. J'ai pensé à une base de donnée, genre MYSQL, mais si j'y introduis des pdf (possible ?), je pense qu'après je ne pourrai plus chercher dans le texte. Il me faudrait archiver tous les documents histoire de pouvoir faire une recherche dans le texte, histoire de trouver par exemple tous les articles concernant l'Italie. Ou alors en plus de rechercher le texte un système avec des tags. Sauvegarder dans la base de donnée le texte et les images séparées ?
Ce ne dois pas être un système tout fait, s'il faut coder je me débrouillerai.
Merci.
j'ai un certain nombre d'articles que j'aimerais numériser et j'aimerais avoir quelques avis sur les différentes approches.
Mon idée est qu'en numérisant je puisse avoir toujours une copie quelque part de ces articles. Il s'agit principalement d'articles de voyages.
Comme j'en ai beaucoup, une fois numérisées, je pourrais simplement rechercher dans les documents comme on recherche dans un pdf
pour trouver tout ce que je veux au lieu
de regarder toutes les pages du classeur. Cela demandera beaucoup de temps alors j'aimerais d'abord faire l'estimation du travail demandé et
ensuite voir le pour et le contre.
Après avoir regardé à gauche à droite, voici mes idées et mes questions:
- je n'ai pas envie de tout recopier. Donc je pensais numériser les documents et ensuite utiliser la reconnaissance de texte. Pour cela tesseract me paraît pas mal. Est-ce que quelqu'un a des tuyaux concernant l'optimisation pour la reconnaissance de texte ? Genre des paramètres à adapter pour la reconnaissance ou augmenter le contraste. Ensuite il y a des photos. Y'a-t-il grosso modo une règle sur le nombre de dpi à utiliser pour scanner ? Une sorte de guide ? Genre 300 c'est bien, 800 excellent, etc. Je n'ai aucune idée.
- ensuite je pensais faire des pdf avec chacun des articles. Là je peux utiliser Latex.
- finalement il faudrait sauvegarder le tout quelque part pour pouvoir ensuite faire des recherches sur l'ensemble des documents. J'ai pensé à une base de donnée, genre MYSQL, mais si j'y introduis des pdf (possible ?), je pense qu'après je ne pourrai plus chercher dans le texte. Il me faudrait archiver tous les documents histoire de pouvoir faire une recherche dans le texte, histoire de trouver par exemple tous les articles concernant l'Italie. Ou alors en plus de rechercher le texte un système avec des tags. Sauvegarder dans la base de donnée le texte et les images séparées ?
Ce ne dois pas être un système tout fait, s'il faut coder je me débrouillerai.
Merci.
Dernière modification par Tristelune le sam. 22 mai 2010, 09:35, modifié 1 fois.
- benjarobin
- Maître du Kyudo
- Messages : 17230
- Inscription : sam. 30 mai 2009, 15:48
- Localisation : Lyon
Re: [Archivage] Numérisation et classements de données
Pour information KDE cherche nativement dans un grand nombre de document dont les PDF.
Il suffit de lui dire d'indexer le dossier ou tu as mis tes fichiers.
Sinon si tu veux implémenter ta propre solution avec mysql, je verrai bine un truc comme cela :
Table fichierPDF: fileid (INTEGER (PK)), file (blob)
Table contenu : [fileid, numpage] (PK), txtpage (TEXT (full index))
Après pour la reconnaissance de texte, j'avais essayer il y a quelques années et il y avait pas mal de rate, mais maintenant il existe des logiciels très performant
Il suffit de lui dire d'indexer le dossier ou tu as mis tes fichiers.
Sinon si tu veux implémenter ta propre solution avec mysql, je verrai bine un truc comme cela :
Table fichierPDF: fileid (INTEGER (PK)), file (blob)
Table contenu : [fileid, numpage] (PK), txtpage (TEXT (full index))
Après pour la reconnaissance de texte, j'avais essayer il y a quelques années et il y avait pas mal de rate, mais maintenant il existe des logiciels très performant
Zsh | KDE | PC fixe : core i7, carte nvidia
Titre d'un sujet : [Thème] Sujet (état) / Règles du forum
Titre d'un sujet : [Thème] Sujet (état) / Règles du forum
-
- Elfe
- Messages : 516
- Inscription : mer. 01 août 2007, 16:38
Re: [Archivage] Numérisation et classements de données
Hhhhmmmm, je vais peut-être déjà essayer cette solution-là. Tout numériser demandera déjà pas mal de temps!benjarobin a écrit :Pour information KDE cherche nativement dans un grand nombre de document dont les PDF.
Il suffit de lui dire d'indexer le dossier ou tu as mis tes fichiers.
Je garde ça en tête. Merci!Sinon si tu veux implémenter ta propre solution avec mysql, je verrai bine un truc comme cela :
Table fichierPDF: fileid (INTEGER (PK)), file (blob)
Table contenu : [fileid, numpage] (PK), txtpage (TEXT (full index))
Sinon en regardant pour le scan il semblerait que 300 dpi soit une bonne résolution. J'ai vu qu'une règle en général serait de doubler le nombre de dpi si on double la taille de l'image. Est-ce que quelqu'un peu plus ou moins confirmer ?
Re: [Archivage] Numérisation et classements de données
Non, en fait le dpi c'est la résolution que tu utiliseras lorsque tu l'imprimeras.Sinon en regardant pour le scan il semblerait que 300 dpi soit une bonne résolution. J'ai vu qu'une règle en général serait de doubler le nombre de dpi si on double la taille de l'image. Est-ce que quelqu'un peu plus ou moins confirmer ?
Pour faire simple si tu dois scanner du texte sans plus et le consulter uniquement sur ton écran tu peux même utiliser 75 dpi (ton fichier sera très light au niveau poids).
Inconvénient, on ne sait jamais ce dont on en fera dans disons 1, 2 ou 5 ans. Et pour pouvoir le reprendre il faudra passer par un ocr avec bien sur la perte de la mise ne page et des images.
300 dpi, c'est la moyenne pour pouvoir imprimer du texte et de l'image à partir de ton scan.
800 à 1500 dpi est seulement pour imprimer en haute résolution du genre une photo que tu voudrais retoucher après tu auras même la possibilité de l'imprimer à 300dpi.
http://fr.wikipedia.org/wiki/Point_par_pouce
Bref, en scannant le plus tu pourras redescendre sur la résolution lors d'une impression. Par contre une photo scannée à 75 par exemple tu ne pourras jamais l'augmenter sans de grosses pertes.
- gyo
- Maître du Kyudo
- Messages : 1049
- Inscription : jeu. 19 avr. 2007, 10:40
- Localisation : Nantes (44)
Re: [Archivage] Numérisation et classements de données
Ben en même temps si la résolution 75dpi te suffit de lire le document sur l'écran, c'est ton document sera également lisible à l'impression, un peu moche mais tout aussi lisible (les images seront plus moche car une imprimante n'utilise que 4 couleurs). Mais bon c'est toujours mieux, je pense, que de scanner à une résolution supérieure pour faire de l'ocr.Refuznik a écrit :Inconvénient, on ne sait jamais ce dont on en fera dans disons 1, 2 ou 5 ans. Et pour pouvoir le reprendre il faudra passer par un ocr avec bien sur la perte de la mise ne page et des images.
Un texte généré par l'outil texte sous Gimp à 75dpi sera meilleur qu'un texte issu d'un scan à 75dpi.
Re: [Archivage] Numérisation et classements de données
http://ubunteros.tuxfamily.org/spip.php?article148
Certains tests (en anglais) ont montré qu’une image de 400 dpi donnait des résultats plus que décents !
-
- Elfe
- Messages : 516
- Inscription : mer. 01 août 2007, 16:38
Re: [Archivage] Numérisation et classements de données
Ok, merci à tous pour toutes ces infos. A présent je vais retrousser mes manches et m'y mettre
-
- Elfe
- Messages : 516
- Inscription : mer. 01 août 2007, 16:38
Re: [Archivage] Numérisation et classements de données (résolu)
En cherchant encore par-ci par-là je suis tombé sur ceci:
http://www.howtoforge.com/ocr_with_tess ... _ubuntu704
Je ne sais pas si toutes les opérations sont encore nécessaires, mais ça donne déjà une idée de base.
Si ça peut être utile à quelqu'un d'autre.
http://www.howtoforge.com/ocr_with_tess ... _ubuntu704
Je ne sais pas si toutes les opérations sont encore nécessaires, mais ça donne déjà une idée de base.
Si ça peut être utile à quelqu'un d'autre.
Re: [Archivage] Numérisation et classements de données (résolu)
c'est pas mal du tout gscan2pdf, par contre vous savez si c'est possible de faire un pdf ou un fichier djvu contenant à la fois l'image, et le texte OCRisé par dessus, comme sur google livre ?
-
- Elfe
- Messages : 516
- Inscription : mer. 01 août 2007, 16:38
Re: [Archivage] Numérisation et classements de données (résolu)
J'avais essayé, mais ça n'a pas marché. Si c'est possible je ne sais pas comment faire. J'avoue aussi ne pas avoir cherché beaucoup. Si jamais, j'ai l'impression qu'effectuer la reconnaissance de texte en ligne de commande est plus rapide. C'est peut-être dû à des options supplémentaires qu'utilise gscan2pdf.farvardin a écrit :c'est pas mal du tout gscan2pdf, par contre vous savez si c'est possible de faire un pdf ou un fichier djvu contenant à la fois l'image, et le texte OCRisé par dessus, comme sur google livre ?
Re: [Archivage] Numérisation et classements de données (résolu)
en ligne de commande j'ai trouvé cela, cela fonctionne, en revanche je ne peux sélectionner et copier le texte ocr-isé :
http://en.wikisource.org/wiki/Help:DjVu ... _Tesseract
Mais une recherche avec okular ou evince indique bien que le texte est reconnu.
Malheureusement, j'ai pas mal de fichiers scannés en tiff, et si on les assemble avec tiffcp, cjb2 n'arrive pas à convertir en un fichier djvu multiples. Faudrait faire un script pour traiter cela individuellement.
http://en.wikisource.org/wiki/Help:DjVu ... _Tesseract
Mais une recherche avec okular ou evince indique bien que le texte est reconnu.
Malheureusement, j'ai pas mal de fichiers scannés en tiff, et si on les assemble avec tiffcp, cjb2 n'arrive pas à convertir en un fichier djvu multiples. Faudrait faire un script pour traiter cela individuellement.
Re: [Archivage] Numérisation et classements de données (résolu)
ce script devrait permettre de placer le texte derrière l'image, mais je n'ai pas testé encore et ça me semble fastidieux http://chunchung.blogspot.com/2008/06/a ... -file.html
Voir également http://theowoll.netau.net/ où ils évoquent le projet de google ocropus
Pour simplement rajouter les infos de texte sur une liste de tiff existants dans le répertoire actuel, et rassembler le tout dans un document unique en djvu :
où djvu_ocr.sh est le script ici : http://en.wikisource.org/wiki/Help:DjVu ... _Tesseract
On peut le modifier et modifier la partie avec $lang = "fra"; au lieu de $lang = "eng"; pour optimiser la reconnaissance en français, mais parfois cela peut être pire pour certains mots.
On peut extraire du texte d'un document djvu avec OCR en utilisant l'outil djvutxt.
En revanche, KDE n'a pas l'air de trouver des mots contenus dans ce document (si j'utilise l'outil de recherche de dolphin par exemple)
Vraiment bien ce format djvu, je ne m'y étais jamais trop intéressé, mais la qualité est très bonne, et cela réduit beaucoup la taille, même par rapport à du tiff déjà bien peu lourd en poids d'image. Par exemple j'avais scanné 3 feuilles A4, les tiff faisaient 175 ko à eux 3, le document djvu résultant fait 50 ko
Tant que j'y suis :
- lire les meta informations d'un document :
- modifier (remplacer) les metadata d'un document :
- en une seule opération :
- retirer les metadata :
Voir également http://theowoll.netau.net/ où ils évoquent le projet de google ocropus
Pour simplement rajouter les infos de texte sur une liste de tiff existants dans le répertoire actuel, et rassembler le tout dans un document unique en djvu :
Code : Tout sélectionner
for A in *.tif* ; do cjb2 $A $A.djvu ; done
n=0; for I in *.djvu ; do n=$((n+1)) ; result=`printf 'doc%04d.djvu' $n` ; mv "$I" $result; done
for J in *.djvu ; do ~/scripts/djvu_ocr.sh "$J" ; done
djvm -c merged_doc.djvu doc*.djvu
On peut le modifier et modifier la partie avec $lang = "fra"; au lieu de $lang = "eng"; pour optimiser la reconnaissance en français, mais parfois cela peut être pire pour certains mots.
On peut extraire du texte d'un document djvu avec OCR en utilisant l'outil djvutxt.
En revanche, KDE n'a pas l'air de trouver des mots contenus dans ce document (si j'utilise l'outil de recherche de dolphin par exemple)
Vraiment bien ce format djvu, je ne m'y étais jamais trop intéressé, mais la qualité est très bonne, et cela réduit beaucoup la taille, même par rapport à du tiff déjà bien peu lourd en poids d'image. Par exemple j'avais scanné 3 feuilles A4, les tiff faisaient 175 ko à eux 3, le document djvu résultant fait 50 ko
Tant que j'y suis :
- lire les meta informations d'un document :
Code : Tout sélectionner
djvused merged_doc.djvu -e 'print-meta'
Code : Tout sélectionner
djvused merged_doc.djvu -e 'set-meta meta.txt' -s
- en une seule opération :
Code : Tout sélectionner
echo -e "Title \"Titre du document\" \nAuthor \"Auteur\" \nSubject \"sujet et mots clés\" " > /tmp/meta.txt ; djvused merged_doc.djvu -e 'set-meta /tmp/meta.txt' -s
- retirer les metadata :
Code : Tout sélectionner
djvused merged_doc.djvu -e 'remove-meta' -s