splor-mg / dpm

Data Package Manager
0 stars 0 forks source link

DPM concat sem armazenamento dos data packages a serem concatenados em memória #77

Open labanca opened 6 months ago

labanca commented 6 months ago

closes #76

labanca commented 3 days ago

Observações sobre o estado atual da implementação:

1) Foi adicionado o parâmetro --chunk-size para estabelecer o tamanho máximo de leitura por bloco. Sem usar esse parâmetro, o antigo concat "full memory" é utilizado como antes.

2) O chunk concat está gastando menos tempo de processamento do que o concat sem limite de memória. Ainda não tenho certeza da razão.

3) Usei como teste os dados do datapackage acordo-judicial-reparacao-vale e o comando

dpm concat --package datapackages/siafi_2021/datapackage.json --package datapackages/siafi_2022/datapackage.json --package datapackages/siafi_2023/datapackage.json --package datapackages/siafi_2024/datapackage.json --output-dir datapackages/siafi/data --chunk-size 100000

A concatenação aconteceu sem problemas. Todavia, o arquivo restos_pagar.csv do concat em chunks ficou com o tamanho diferente do arquivo utilizando o concat tradicional. O mais estranho é que ao carregar esses arquivos como dataframes no pandas eles geraram dataframes iguais.

Estou investigando, mas suponho que possam ser diferenças de dados armazenados mas que não são considerados pelo pandas (BOM, end of line, double spaces, caracateres não imprimíveis, etc).

labanca commented 3 days ago

Pendências: