Open labanca opened 6 months ago
Observações sobre o estado atual da implementação:
1) Foi adicionado o parâmetro --chunk-size
para estabelecer o tamanho máximo de leitura por bloco. Sem usar esse parâmetro, o antigo concat "full memory" é utilizado como antes.
2) O chunk concat está gastando menos tempo de processamento do que o concat sem limite de memória. Ainda não tenho certeza da razão.
3) Usei como teste os dados do datapackage acordo-judicial-reparacao-vale e o comando
dpm concat --package datapackages/siafi_2021/datapackage.json --package datapackages/siafi_2022/datapackage.json --package datapackages/siafi_2023/datapackage.json --package datapackages/siafi_2024/datapackage.json --output-dir datapackages/siafi/data --chunk-size 100000
A concatenação aconteceu sem problemas. Todavia, o arquivo restos_pagar.csv
do concat em chunks ficou com o tamanho diferente do arquivo utilizando o concat tradicional. O mais estranho é que ao carregar esses arquivos como dataframes no pandas eles geraram dataframes iguais.
Estou investigando, mas suponho que possam ser diferenças de dados armazenados mas que não são considerados pelo pandas (BOM, end of line, double spaces, caracateres não imprimíveis, etc).
Pendências:
restos_pagar
em cada método de concatenção--enrich
closes #76