BrunoSupriano / SystemTransportDeltaLake

Pipeline de Dados de um sistema de transportes
MIT License
3 stars 1 forks source link

Issue #1: Configurar ambiente relacional e gerar dados falsos (Henrique) #2

Closed BrunoSupriano closed 3 months ago

BrunoSupriano commented 3 months ago

Tarefas:

  1. Escolha do banco de dados relacional:

    • Decidir qual SGBD (Sistema de Gerenciamento de Banco de Dados) será utilizado (por exemplo, MySQL, PostgreSQL, etc.).
    • Configurar o banco de dados escolhido (pode ser localmente ou em um serviço de nuvem).
  2. Criação do esquema de banco de dados:

    • Definir e criar o esquema do banco de dados com no mínimo 6 tabelas.
    • Garantir que as tabelas principais tenham pelo menos 10.000 linhas cada, com dados distribuídos pelos últimos 3 anos.
  3. Geração de dados falsos:

    • Utilizar bibliotecas Python como Faker para gerar dados fictícios e popular as tabelas.
    • Certificar-se de que os dados gerados sejam realistas e consistentes entre as tabelas.
  4. Validação dos dados:

    • Realizar consultas para garantir que os dados estão corretos e distribuídos conforme necessário para os KPIs e métricas futuros.
BrunoSupriano commented 3 months ago

@Henrique94

Gostaria que revisasse as tabelas de dados e testasse, ontem verificando com a @JhayneK #8 tivemos dificuldade em montar as KPIs, utilize os dados ajustados que mandei no csv por último no grupo do wpp. Da uma olhada pois estava vendo que tinha uma certa inconsistencia entre o id usuario e o resto das tabelas.

HenriqueSilva29 commented 3 months ago

Modelo Relacional do banco

modelo relacional

HenriqueSilva29 commented 3 months ago

Arquivos csv com os dados preenchidos.

Cargas.csv Agendamentos.csv Motoristas.csv Veiculos.csv Rotas.csv Clientes.csv

jpdarabas commented 3 months ago

Algumas ideias de colunas novas pra adicionar na tabela Agendamentos (que sugiro também a mudança de nome pra Entregas):

São só ideias então algumas podem ser descartadas se preferir.

jpdarabas commented 3 months ago

Faltou os dados da coluna RestricoesTrafego na tabela Rotas.csv

HenriqueSilva29 commented 3 months ago

Retirado a coluna restricoesTrafego da tabela Rotas, não vi sentido em mantê-la