jasondavindev / open-dataplatform

Data platform to build batch and real-time ETL flows using only open source technologies.
6 stars 3 forks source link
airflow dataplatform hdfs hive kafka kubernetes spark trino

Open Data Platform

Problema

Motivação

Solução

Criar uma plataforma de dados centralizada utilizando ferramentas open-source, capaz de prover a criação de pipelines ETL em batch e em tempo real e também ferramentas para análise dos dados armazenados no Data Lake.

Arquitetura

Initial archtecture

Como executar este projeto

Primeiramente construa todas imagens docker, executando

./build_images.sh

Suba todos os containers

docker-compose -f docker-compose.yml -f kafka/docker-compose.yml -f ingestion/docker-compose.yml up