digital-guard / preserv

Digital Preservation Project
http://git.digital-guard.org/preserv
Apache License 2.0
0 stars 0 forks source link

Usar redirecionamento OneDrive #28

Closed ppKrauss closed 1 year ago

ppKrauss commented 2 years ago

O limiar de cache ficou estabelecido em ~10Gb, mas já estamos em du -sh /var/www/preserv.addressforall.org/ = 14G. Os arquivos ofensores podem ser listados por

ls -lhS /var/www/preserv.addressforall.org/download/ | head | awk '$5 {print $5 " | " $9;}'

e atualmente são:

size file
1,4G 137dc416e70776ac57c37a4fb0cb9bedb1468e91ed73eaa656ddee91011daed7.zip
1,4G 44a4c74ad768a9c4a91ff9fb168ebcd555dc0ea4b6eb1c405cc6c3fa993f8514.zip
1,2G fd7d5feaf4a1966b1f3d50f1b2925edf59f1e5580c3ed32bbc783ddf393f1ea5.pbf
973M 67dbc1385846f4d1930622b4bdb647bf54f8317a61995908b017f8ad197bd596.zip
847M COLOMBIA_pg_dump_2021-08-16.sql.gz
670M 8e7be760f94bb385bb1b6a47feee3afce9c0fcf48317b554834a5ac30bc5a0cf.zip
382M 0c72ec1c4dc9ab95f4bbb3eba0e227dac0725ebae5ba0306f4f5de67e7a6cb04.zip
375M db707701e3193d1ea3179020fe9d262e8c6968d0fb5c9a6f6533b2d92bb600b1.zip
309M 43484294f9190a3a050e097e0c106f8da16169a3e1dff9d00ea04aae6e9cbe1a.zip

@crebollobr favor passar os ofensores listados para o modo redirecionado.

Quanto ao COLOMBIA_pg_dump_2021-08-16.sql.gz, não devia estar no cache de downloads, apenas arquivos com SHA256 já registrado em make_conf.yalm deveriam comparecer. Foi removido.

Arquivos em formato não-comprimido, tais como 079c4057762797ae4e046e330e1053e1dcf3cbb411c617772be44049764b60f0.geojson não deveriam estar resgitrados na preservação digital. Sugere-se investigar o YAML que gerou .csv e .json. Em particular 0c8e193ecd1647309ee8da292e217a7ce2002cb9b1815a13e2b9ddd942999e32.csv é um arquivo vazio. Tem também os arquivos inválidos .dwg, .zip e .rar a serem removidos (no futuro criar proteção contra esses lixos).

crebollobr commented 2 years ago

Problema no makefile: Pasta preserv/src comando make redirects_update

mkdir -p /tmp/pg_io -- Atualiza redirecionamentos -- Download da tabela de-para .... wget "https://docs.google.com/spreadsheets/d/1CL6f0I9DSpqKxKC7QNJGCfyabq7mDOVab5QBGV5VLOk/gviz/tq?tqx=out:csv&sheet={de-para}" -O "/tmp/pg_io/de-para.csv" --2021-12-29 18:14:22-- https://docs.google.com/spreadsheets/d/1CL6f0I9DSpqKxKC7QNJGCfyabq7mDOVab5QBGV5VLOk/gviz/tq?tqx=out:csv&sheet=%7Bde-para%7D Resolving docs.google.com (docs.google.com)... 2607:f8b0:4005:810::200e, 142.250.191.78 Connecting to docs.google.com (docs.google.com)|2607:f8b0:4005:810::200e|:443... connected. HTTP request sent, awaiting response... 200 OK Length: unspecified [text/csv] Saving to: ‘/tmp/pg_io/de-para.csv’

/tmp/pg_io/de-para.csv [ <=> ] 4,07K --.-KB/s in 0s

2021-12-29 18:14:23 (29,7 MB/s) - ‘/tmp/pg_io/de-para.csv’ saved [4172]

psql postgres://postgres@localhost/dl99t_main -c "DELETE FROM download.redirects; COPY download.redirects FROM '/tmp/pg_io/de-para.csv' CSV HEADER;" ERROR: relation "download.redirects" does not exist LINE 1: DELETE FROM download.redirects; COPY download.redirects FROM... ^ make: *** [makefile:217: redirects_update] Error 1

0e1 commented 2 years ago

O problema relatado foi ocasionado pelo uso da base _dl99tmain.

A tabela redirects está no schema download e na base _dl02smain (até ontem estava na dl03t_main).

Para atualizar a tabela informar a base:

make redirects_update pg_db=dl02s_main

Importante notar que para a atualização da redirects funcionar, a folha csv de de-para não deve possuir repetições na coluna de_sha256.

0e1 commented 2 years ago

Issue relacionada: https://github.com/AddressForAll/WS/issues/28.

ppKrauss commented 2 years ago

@crebollobr por favor acrescentar mais dados na planilha de-para

crebollobr commented 2 years ago

Feito com os arquivos de download tem um backup em /var/www/preserv.addressforall.org/download-backup-20220527.tar

crebollobr commented 2 years ago

Esse backup vai ficar uma semana para teste de migração, depois apago

0e1 commented 2 years ago

Feito com os arquivos de download tem um backup em /var/www/preserv.addressforall.org/download-backup-20220527.tar

Deletei o arquivo para liberar espaço no servidor. Antes, fiz o download dele para minha máquina.

crebollobr commented 1 year ago

se precisarem mais serviços neste assunto, por favor. abrir outra issue