digital-guard / preserv

Digital Preservation Project
http://git.digital-guard.org/preserv
Apache License 2.0
0 stars 0 forks source link

md5 no caso de arquivos grandes, any_load #105

Closed 0e1 closed 2 years ago

0e1 commented 2 years ago

A ingestão de cadparcel de BR/SP/SaoPaulo/_pk0033.01 lida com um arquivo csv maior que um 1 giga.

Isso implica que _md5(pg_read_binaryfile(f)) não pode ser obtido, em jsonb_pg_stat_file > getmeta_to_file > any_load.

Isso já foi contornado para o caso especifico do OpenStreetMap. Nesse caso, quando o arquivo for do OpenStreetMap é calculado md5('OpenStreetMap'). Isso é possível porque a função de ingestão é diferente: osm_load.

O md5 é obrigatório conforme donated_PackComponent.

Discutir maneira de calcular o md5 para aquivos grandes, tratados pela any_load, que possa ser aplicada para caso geral.

0e1 commented 2 years ago

Limitada pg_read_binary_file à ~900MB.