BrunoSupriano / SystemTransportDeltaLake

Pipeline de Dados de um sistema de transportes
MIT License
3 stars 1 forks source link

Sistema de Transportes (DeltaLake)

License

Este projeto visa construir um Data Lake utilizando uma arquitetura de camadas, ingestão e transformação de dados, e visualização de dados em um dashboard.

Começando

Essas instruções permitirão que você obtenha uma cópia do projeto em operação na sua máquina local para fins de desenvolvimento e teste.

Consulte Implantação para saber como implantar o projeto.

Desenho de Arquitetura

Coloqui uma imagem do seu projeto, como no exemplo abaixo:

image

Pré-requisitos

De que coisas você precisa para instalar o software e como instalá-lo?

Instalação

Uma série de exemplos passo-a-passo que informam o que você deve executar para ter um ambiente de desenvolvimento em execução.

Clonando o Repositório

git clone https://github.com/brunosupriano/SystemTransportDeltaLake.git
cd SystemTransportDeltaLake

Configurando o Ambiente Virtual

Com pip

python3 -m venv env
source env\Scripts\activate # No linux use `source env/bin/activate` 
pip install -r requirements.txt

Com poetry

poetry init
poetry add mkdocs mkdocs-material mkdocs-material-extensions
poetry shell

Rodando o mkdocs

mkdocs serve

Ferramentas Utilizadas

Faker

Biblioteca Python utilizada para gerar dados falsos realistas, como nomes, endereços, datas e mais. Essencial para criar a massa de dados necessária para o ambiente relacional.

Docker

Plataforma de contêineres que permite criar, implantar e executar aplicativos de maneira isolada. Usada para configurar ambientes locais consistentes, incluindo o armazenamento de objetos para o Data Lake.

Delta Lake

Armazenamento de dados em formato de tabela otimizado para grandes volumes de dados e processamento transacional em escala. Usado para armazenar dados nas camadas Bronze, Silver e Gold.

Apache Spark

Motor de processamento de dados distribuído que permite a execução de tarefas de transformação e análise em grandes volumes de dados. Utilizado para transformação de dados com PySpark.

Power BI

Serviço de análise de negócios que fornece visualizações interativas e recursos de inteligência de negócios. Utilizado para criar o dashboard que consome dados do modelo dimensional na camada Gold.

GitHub

Plataforma de hospedagem de código-fonte com controle de versão usando Git. Utilizada para colaboração, versionamento de código, gerenciamento de issues, e publicação da documentação do projeto.

MkDocs

Gerador de sites estáticos que converte arquivos markdown em uma documentação bem estruturada. Utilizado para documentar o projeto de forma clara e organizada.


Colaboração

Se desejar publicar suas modificações em um repositório remoto no GitHub, siga estes passos:

  1. Crie um novo repositório vazio no GitHub.
  2. No terminal, navegue até o diretório raiz do projeto.
  3. Execute os seguintes comandos:
git remote set-url origin https://github.com/seu-usuario/nome-do-novo-repositorio.git
git add .
git commit -m "Adicionar minhas modificações"
git push -u origin master

Isso configurará o repositório remoto e enviará suas modificações para lá.

Versão

Fale sobre a versão e o controle de versões para o projeto. Para as versões disponíveis, observe as tags neste repositório.

Autores

Mencione todos aqueles que ajudaram a levantar o projeto desde o seu início

Você também pode ver a lista de todos os colaboradores que participaram deste projeto.

Licença

Este projeto está sob a licença (sua licença) - veja o arquivo LICENSE para detalhes.

Referências

Cite aqui todas as referências utilizadas neste projeto, pode ser outros repositórios, livros, artigos de internet etc.

referencias