basedosdados / mais

⚙️ Código de manutenção do datalake (metadados e pacotes de acesso) | 📖 Docs: https://basedosdados.github.io/mais/
https://info.basedosdados.org/links
MIT License
391 stars 88 forks source link

[infra] <Possibilidade de baixar em formato parquet com o pacote R> #1694

Open brunomioto opened 9 months ago

brunomioto commented 9 months ago

Sua solicitação de recurso está relacionada a um problema? Por favor descreva. Algumas tabelas da base são bem grandes e salvar em .csv pode gerar arquivos bem grandes. O formato parquet tem muitas vantagens relacionadas à velocidade e tamanho do arquivo gerado.

Exemplo CSV:

library(basedosdados)

bare_query <- "SELECT *
FROM basedosdados.br_tse_eleicoes.detalhes_votacao_secao
WHERE ano = 2022
AND sigla_uf = \'SP\'"
basedosdados::download(query = bare_query,
                       path = "./teste.csv")

Arquivo gerado: teste.csv 91.072 KB

Exemplo Parquet:

library(basedosdados)

bare_query <- "SELECT *
FROM basedosdados.br_tse_eleicoes.detalhes_votacao_secao
WHERE ano = 2022
AND sigla_uf = \'SP\'"
download_new(query = bare_query,
         path = "./teste2",
         format = "parquet")

Arquivo gerado: teste.parquet 15.334 KB

Este teste foi com uma base não tão grande. Mas com bases maiores, os ganhos podem ser ainda maiores.

Descreva a solução que você gostaria Tenho essa funcionalidade implementada na função download() do pacote R. Gostaria de saber se posso subir.

gustavoalcantara commented 9 months ago

@brunomioto vou inserir o @pedrocava aqui que é mantenedor do pacote. Abraço!

pedrocava commented 9 months ago

Quer abrir um pull request com o seu material? Não tem uma reprex, então não sei se é exatamente a mesma coisa, mas em teoria a gente aceita formatos arbitrários já. Abre o PR que aí eu posso avaliar se a funcionalidade já existe, ou então revisar o código e adicionar!