SouJunior / dashboard-midias

Projeto Dashboard de Mídias
1 stars 1 forks source link

[POC] Engines de Processamento - Duck DB #24

Open renata-olivmachado opened 1 month ago

renata-olivmachado commented 1 month ago

Testar qual ferramenta vai ser mais eficiente no nosso caso.

Moscarde commented 2 weeks ago

Requisitos

Estrutura do Script

Classes e Métodos

Classe EtlLinkedin

Responsável pelo processamento ETL.

Função Principal main

  1. Inicializa a classe EtlLinkedin com os diretórios de dados brutos e limpos.
  2. Extrai os dados brutos dos arquivos.
  3. Converte os dataframes pandas para tabelas em DuckDB.
  4. Aplica transformações aos dados extraídos.
  5. Carrega os dados transformados no diretório de dados limpos.
  6. Identifica e agrupa tabelas de mesma categoria e mês.
  7. Exporta os DataFrames concatenados para arquivos CSV mensais.
  8. Identifica e agrupa tabelas de mesma categoria.
  9. Exporta os DataFrames concatenados por categoria para arquivos CSV finais.

Como Executar


python etl_linkedin_duckdb.py

Estrutura de Diretórios