basedosdados / mais

⚙️ Código de manutenção do datalake (metadados e pacotes de acesso) | 📖 Docs: https://basedosdados.github.io/mais/
https://info.basedosdados.org/links
MIT License
392 stars 88 forks source link

[infra-cloud] | Adicionar labels às tabelas do GCP #1663

Closed crislanealves closed 9 months ago

crislanealves commented 1 year ago

Sua solicitação de recurso está relacionada a um problema? Por favor descreva.

Atualmente, não temos muitas formas de fazer a rastreabilidade de custos no nosso no DL de forma mais granular. Daí a dificuldade de entender o aumento de custos quando temos um processo de ingestão incorreto ou algo do tipo. Exemplo:

image

Descreva a solução que você gostaria

Uma forma de melhorar a rastreabilidade no DL, é a utilização de labels. A ideia é adicionar labels via DBT para todas as tabelas que já existem e que serão adicionadas no futuro. Isso vai nos ajudar com a rastreabilidade de custos e com uma governança melhor nos nossos dados.

Descreva alternativas que você considerou

Processo de implementação via DBT é muito simples, com apenas uma linha de código.

Por exemplo: labels = {'project_id': 'basedosdados', 'tema': 'economia'})

Código completo: br_ibge_pnadc.microdados

Resultado: image

Contexto adicional O ideal é ter uma padrão já definido, alguns rótulos que podemos utilizar são:

project_id: basedosdados, basedosdados-dev [...] owner: engenharia, bi, arquitetura [...] data_source: bd_pro, bd_mais [...] data_type: logs, transactions, sensitive, analyzes [...] cost_center: administrativo, dados, plataforma [...]

Referencia:

Introduction to labels Organize resources using labels

mfagundes commented 1 year ago

Excelente ideia. @lucascr91 e @laura-l-amaral acham que podemos designar alguém de dados para ir atualizando isso enquanto terminamos a migração? Acho que podem andar em paralelo sem problema algum.

crislanealves commented 1 year ago

Antes é preciso definir qual padrão é o ideal. @rdahis que é mestre nisso 👑

laura-l-amaral commented 1 year ago

Excelente ideia. @lucascr91 e @laura-l-amaral acham que podemos designar alguém de dados para ir atualizando isso enquanto terminamos a migração? Acho que podem andar em paralelo sem problema algum.

Acho que, depois que definirmos o padrão, podemos incluir labels nas novas tabelas, mas acho que pras tabelas antigas vale mais a pena a gente refazer quando for levar tudo que tá na mais pro repositório do DBT.

laura-l-amaral commented 9 months ago

issue similar a basedosdados/pipelines#617