[x] Origem deve ter no mínimo 6 tabelas e 10 mil linhas cada com distribuição de datas dos últimos 3 anos
[ ] Usar uma ferramenta de orquestração de tarefas para ingestão, transformação e movimentação dos dados entre camadas
[ ] Data Lake deve ser criado em cima de um Object Storage usando a arquitetura medalhão
[ ] Os dados devem ser gravados no Object Storage no formato Delta Lake (ou Apache Iceberg)
[ ] Transformações de dado devem ser feitas através de Apache Spark (PySpark)
[ ] Disponibilizar os dados na Gold em um modelo dimensional
[ ] Criar 4 KPIs e 2 métricas para compor o dashboard no padrão One Page View
[ ] O dashboard deve consumir os dados do modelo dimensional da camada Gold ou, caso necessário, deve ser criado um banco e colocado os dados para o dashboard consumir
[ ] Publicar tudo no GitHub
[ ] Documentação no MkDocs
[ ] Atualizações devem ser feitas por meio de Pull Request
[ ] Mapear as tarefas por meio de issues
[ ] Cargas de dados de forma full
Pull Request e branchs
Commitar a alteração em um branch (o nome do branch pode seguir a etapa do projeto para organizar melhor: docs, data-origin, orchestration, data-lake, transformation-spark, gold-layer, dashboard, etc.)
Fazer um pull request para a main
Se for aprovado por dois membros da equipe, entra na main
Requisitos:
Pull Request e branchs