J'aimerais archiver mes documents que j'ai sous forme papier sous forme numérique. J'avais commencé
à la suite de:
http://forums.archlinux.fr/topic6003.html
(Pour les admins qui ne veulent pas tout lire, pouvez-vous lire la remarque
tout à la fin ? Merci!)
J'ai numérisé pas mal d'articles, mais ça prend du temps! De plus, ça fait pas mal de temps,
les logiciels et le matos ont évolués, je me dit qu'une petite mise à jour n'est pas mal. J'aimerais à présent
archiver toutes sortes de documents, dont des magazines. Et avant de me lancer dans l'entreprise
j'aurais aimé quelques retour d'expérience. Mon but est le suivant: de numériser les documents pour que
ça prenne moins de place et ensuite trier le tout pour pouvoir tout retrouver plus vite. Et j'aimerais
savoir ce qu'il est possible de mettre en oeuvre pour avoir un système le plus efficace possible. En résumé si la
suite est trop longue: comment faites-vous pour archiver vos documents sous forme numérique ?
Voilà comment je me suis représenté la chose: scanner les documents, trouver un moyen de faire des pdf
dans lesquelles les liens sont cliquables et la recherche de texte est possible. Ensuite par là-dessus il
faudrait encore gérer tous les documents. Ca serait aussi sympa de pouvoir extraire les images des scans.
Jusqu'à présent je scannais les documents à l'aide de xsane, utilisais tesseract pour la reconnaissance
de texte par l'intermédiaire de gimagereader, je recréais les documents à l'aide de Latex. Ca fonctionne
du moment qu'il n'y a pas beaucoup de page.
J'ai une simple imprimante multifonction avec scanner. Il y a déjà deux alternatives:
- je donne le travail à quelqu'un
- je le fais moi-même
Est-ce que vous connaissez des gens qui font ça ? Pour l'instant je n'ai trouvé que pour un gros volume.
Comme ça aura un coût et ne sera peut-être pas à mon goût, l'autre solution est de le faire moi-même. Une première
chose est que je ne savais pas qu'il y avait des scanner recto-verso avec chargeur. Jusqu'à présent je mettais
les documents un à un et avec cette possibilité là, ça me faciliterait déjà bien la vie. Est-ce
que quelqu'un utilise un scanner avec chargeur et que ça fonctionne bien sous Linux ? D'après ce que j'ai vu, ça devrait
aller. Je regarde du côté de HP Officejet Pro 8600 Plus. Des retours ? Un autre conseil de scanner multi-page ? J'ai
vu aussi le Fujitsu ScanSnap S1500M.
Ensuite, pour gagner du temps, il faudrait appliquer la reconnaissance de texte sur l'image scannée. Sans cette phase, il sera
impossible à mon avis de chercher dans le pdf produit. Connaissez-vous des scanner avec OCR intégré ? Je ne parle pas d'un logiciel,
mais que le scanner me livre directement le scan avec le texte. Ca me paraît toutefois un peu illusoire!

gscan2pdf (ou plutôt redécouvert!). Apparemment il scanne et peut lancer la reconnaissance de texte tout de suite après. On peut ensuite
sauvegarder le tout en pdf et on aura un pdf dans lequel on peut chercher le texte. Mais apparemment pas possible d'avoir des liens cliquables. D'autres logiciels ?
Au sujet de la reconnaissance de texte j'utilise tesseract. Est-ce que d'autres se sont tournés vers d'autres solutions, car la
reconnaissance était meilleure ? Si oui quel logiciel ? J'ai également trouvé des logiciels payants, mais je me demande
si on y gagne quelque chose. J'ai notamment vu http://www.ocr4linux.com/fr:start qui est apparemment
donné comme pas mal.
Connaitriez-vous un logiciel pour gérer tous ces documents et effectuer des recherches sur l'ensemble ?
Pour mes articles, j'ai simplement géré ça à l'aide de répertoires et utiliser recoll pour effectuer une recherche.
Une autre chose à laquelle je n'avais pas pensé: en relisant le post mentionné au début, on suggère d'archiver
non pas en pdf mais en djvu. quels sont les avantages ? Pour l'instant tout ce que j'ai trouvé est au niveau
de la taille.... mais c'est déjà pas mal.
Ou alors une tout autre méthode avec base de données par exemple ?
Merci pour vos contributions!
Pour les admins: selon le développement, c'est ok si je rajoute un commentaire
dans le post cité plus haut en donnant le lien de ce post ? Je ne veux pas
me faire taper dessus parce que je déterre un sujet
