splor-mg / spreadmart

Data mart com dados orçamentários
0 stars 0 forks source link

POC das alternativas para hospedagem de data packages onlines #4

Open fjuniorr opened 1 year ago

fjuniorr commented 1 year ago

Na primeira versão do spreadmart as fontes de dados[^20230420T111210] serão todas provenientes de arquivos (xlsx e csv). Cada fonte de dados deve ser empacotada como um data package, seja ela gerenciada pela Assessoria ou não.

Isso significa que vamos precisar de alternativas para hospedagem de data packages públicos e privados (requisito 1) mas que possam ser acessados durante a execução da nossa pipeline[^20230420T112603] (requisito 2).

De cabeça penso nas seguintes opções:

Precisamos fazer uma POC para avaliar essas alternativas. Minha preferência é por uma solução que utilize o Git LFS tendo em vista que "resolvemos" a questão de versionamento dos dados (requisito 3).

[^20230420T111210]: Sejam elas provenientes do Portal de Dados Abertos ou do Armazém de Dados [^20230420T112603]: Ainda não sabemos onde nossa pipeline vai ser executada

fjuniorr commented 5 months ago

Minha preferência é por uma solução que utilize o Git LFS tendo em vista que "resolvemos" a questão de versionamento dos dados (requisito 3).

https://github.com/splor-mg/armazem-siafi-dados/issues/19 é um exemplo concreto em que a impossibilidade de acessar os dados primários em data-raw gerou muitas dificuldades na hora de investigar um problema. Foi possível contornar porque eu e @hslinhares estávamos disponíveis para trabalhar. No caso de férias e licenças que quase aconteceu o cenário seria outro.

Armazenar os metadados como relatado em https://github.com/splor-mg/dpm/issues/24#issuecomment-1966504936 resolve alguns, mas não todos os problemas.