michelbl / scraper-place

Scraper https://www.marches-publics.gouv.fr/
9 stars 5 forks source link

accès à un fichier dans le glacier #12

Closed miniupnp closed 4 years ago

miniupnp commented 4 years ago

Bonjour, j'essaye de récupérer un fichier qui n'est plus disponible (par exemple https://betterplace.info/files/386504-f2h-dce.zip ) le scraper le sauvegarde dans S3 Glacier et fournit l'ID, mais pour le récupérer ne faut il pas d'autres information, comme le "Vault", voire l'id du compte AWS utilisé pour stocker le fichier ? Ne faudrait il pas publier ces infos pour que la récupération soit possible par tout un chacun ?

Si ce n'est pas le lieu pour ce type de demande, n'hésitez pas à me répondre par email (vous trouverez une de mes adresse aisément sur le site web associé à mon compte github)

michelbl commented 4 years ago

Bonjour, la taille totale de l'archive approche le tera, ce qui atteint la limite du serveur sur lequel le site est installé. J'ai dû trouver une solution temporaire : copier la moitié de l'archive vers un autre serveur, qui n'est pas publiquement accessible à ce jour. Avez-vous besoin de ces données maintenant ? Je peux mettre en place un accès temporaire à mon autre serveur en attendant de mettre en place une solution définitive.

miniupnp commented 4 years ago

oui je souhaiterais avoir accès à ces données rapidement.

Mais sinon c'était l'occasion pour moi d'expérimenter le service S3 Glacier. Il me semble qu'il doit être possible que votre "vault" soit accessible en lecture à d'autres utilisateurs AWS (voire à tout le monde)

miniupnp commented 4 years ago

ping ? ;)

michelbl commented 4 years ago

Bonjour @miniupnp , le père Noël a déposé un gros disque dur dans ma cheminée, il devrait tenir pour les 2 années qui viennent.

L'accès aux fichiers est de nouveau opérationnel: http://betterplace.info/database-backups/ et http://betterplace.info/files/xxx Je rétablirai le moteur de recherche quand j'aurais un peu de temps.

En fait, je ne souhaite pas donner un accès public à ma copie de sauvegarde sur le cloud car des frais de transit s'appliquent, et je ne veux pas me retrouver avec plusieurs milliers d'euros de facture en cas de malveillance. L'option Requester Pays pourrait être une solution, mais cela compliquerait la vie de la plupart des utilisateurs.

miniupnp commented 4 years ago

merci! Toutefois pour reprendre mon exemple de la DCE 386504, https://betterplace.info/files/2018010CI0A025-DCE.zip ou https://betterplace.info/files/386504-f2h-dce.zip renvoient une erreur 404...

michelbl commented 4 years ago

J'ai enlevé org_acronym des noms de fichiers. 386504-f2h-dce.zip -> 386504-dce.zip

NB : toute la base est en cours de réindexation. Ca devrait être terminé d'ici 1 jour ou 2...

miniupnp commented 4 years ago

OK. Merci !