Page 1 sur 1

[rsync] utilisation avec un site internet

Publié : dim. 26 juil. 2020, 09:06
par archlinuxnul
Bonjour à tous !

J'utilise "rsync" régulièrement pour sauvegarder mes données du disque dur vers ma clé usb en utilisant la command suivante :
--> rsync -av --delete-after source/ destination/
Aujourd'hui, je souhaiterais faire la même chose mais avec un site internet quelconque afin de récupérer ses données tout en les mettant à jour. Comment faire avec "rsync" ? En effet lors du téléchargement des fichiers archives peuvent changer d'où la nécessité d'une synchronisation ... si je comprends bien ???)
--> rsync -av --delete-after https://www.archives/ destination/
Mais évidemment cela ne fonctionne pas !
Pour l'instant je n'utilise que les paquets de core, extra et community.

Merci d'avance pour aide

Re: [rsync] utilisation avec un site internet

Publié : dim. 26 juil. 2020, 09:32
par papajoke
bonjour

il faudrait nous dire si c'est ton site web :wink: et donc acces via ftp ou ssh ?
sinon il faut se tourner vers d'autres utilitaires (wget,... softs de web scraping :google: )

Re: [rsync] utilisation avec un site internet

Publié : dim. 26 juil. 2020, 11:35
par archlinuxnul
Non, il s'agit de sites quelconques qui ne m'appartiennent pas. J'ai essayé la commande suivante mais il y a des fichiers qui ne sont pas téléchargés (erreur 404 not found) :
--> wget -rc -np -N -l inf https:://www.archive/
Vous connaissez d'autres solutions ?
Merci pour votre aide.

Re: [rsync] utilisation avec un site internet

Publié : dim. 26 juil. 2020, 12:28
par waitnsea
archlinuxnul a écrit : dim. 26 juil. 2020, 11:35 Non, il s'agit de sites quelconques qui ne m'appartiennent pas. J'ai essayé la commande suivante mais il y a des fichiers qui ne sont pas téléchargés (erreur 404 not found) :
--> wget -rc -np -N -l inf https:://www.archive/
Vous connaissez d'autres solutions ?
Merci pour votre aide.
Bonjour,
J'utilise

Code : Tout sélectionner

$ wget -e robots=off --mirror "https://...."
Mais certains sites se protègent, ce qui est leur droit...

Re: [rsync] utilisation avec un site internet

Publié : lun. 27 juil. 2020, 14:20
par archlinuxnul
Meci. Je vais l'essayer de suite.

Re: [rsync] utilisation avec un site internet

Publié : lun. 27 juil. 2020, 19:15
par CoudUr
Salut,

Je sais qu'il existe httrack qui peut t'aider, mais bon:
1) trouver la bonne combinaison d'options n'est pas toujours aisé, c'est pareil avec wget (voir le man pour se donner une idée ... )
2) et surtout les sites ne sont pas tous construis par des amateurs, limite des requêtes, plus certains fichiers inaccessibles.

Dis-nous si tu as réussi, ça peut être sympa de voir comment tu as fait.

Re: [rsync] utilisation avec un site internet

Publié : mar. 28 juil. 2020, 12:28
par archlinuxnul
Bonjour à tous.

Après plusieurs bidouillages (l'informatique et moi ça fait deux), les lignes suivantes semblent fonctionner :

--> rm site.com/index.html
--> wget -o logPourVerifierApres -rc -np -N -l inf --no-remove-listing -R 'ce que l'on ne veut pas' https://site.com/
--> rm site.com/*.old;

A plus si vous avez plus simple !