basedosdados / mais

⚙️ Código de manutenção do datalake (metadados e pacotes de acesso) | 📖 Docs: https://basedosdados.github.io/mais/
https://info.basedosdados.org/links
MIT License
391 stars 89 forks source link

[infra] Como levar para produção uma tabela que está em parquet #1654

Closed laura-l-amaral closed 8 months ago

laura-l-amaral commented 1 year ago

Descrição Atualmente o pacote não está funcionando para arquivos em parquet, o que impede levar dados subidos nesse formato para produção

Situação Recentemente subimos uma base da ANS com 396GB com um voluntário e para que fosse viável o processo de subida transformamos em parquet (deu cerca de 20GB se não me engano). Conseguimos levar a base do storage para o BQ (basedosdados-dev.br_ans_beneficiario_staging.microdados) usando comandos no Cloud Shell mas não consegui fazer ela ficar particionada. Além disso temos o problema que pra levar a tabela para produção usamos a action do github que usa o pacote para publicar as tabelas. Assim precisava da ajuda de vcs para encontrar uma maneira de levar essa tabela pra produção mesmo ela estando em parquet (pensei em usar o DBT mas queria confirmar com vcs que seria uma maneira correta e não atrapalharia o nosso funcionamento)

laura-l-amaral commented 8 months ago

já resolvido