stack-spot / stackspot-studio-data-roadmap

Repositorio para equipe de criacao de conteudo para poder criar as issues de repositorio
https://stackspot.com
Apache License 2.0
0 stars 0 forks source link

[Producer] Spike - Implementar Regras de Quality #11

Open flavioaraujozup opened 1 year ago

flavioaraujozup commented 1 year ago

Analisar os Pliares de Qualidade de Dados

Qualidade dos dados - Critérios técnicos elaboracao doc

POC com três exemplos de Teste DataQuality - Glue

Levantar ferramentas open source

luizcarloszup commented 1 year ago

1] Precisão Precisão do campo = [Total de registros com informações de campo precisas] / [Total de registros com um valor no campo] * 100

2] Cobertura Cobertura de campo = [Total de entidades no domínio da conta Producer] / [ Total entidades do domínio em suas origens] * 100

3] Dados duplicados Taxa de duplicação = [Total de duplicatas detectadas no domínio] / [Total registros totais no domínio de dados] * 100

4] Pontualidade Pontualidade = [Total de registros no domínio de dados que representam com precisão o valor atual da origem] / [total de registros do domínio] * 100

5] Dados vazios Dados Vazios = [Total de registros vazios no domínio] / [total de registros do domínio] * 100

Esses são repo que ajudar no problema do teste de Implantar o codigo.:

https://github.com/itau-corp/itau-ni2-infra-interstelar-nimbusinfraglueworkflow/blob/master/infra/template.yml https://github.com/itau-corp/itau-ni2-app-interstelar-cadastroexternonimbussourceglue O Primeiro criar um recurso do glue e outros componentes. O Segundo tem o codigo e pacote para subir para S3(pois o jar e o zip tem que estar no S3)