Coletar as fontes de dados do mundo do trabalho.

bmarbueno commented 8 months ago

[x] CNCT (Extração em 01/12/2023): Extração_CBO CNCT_01.12.2023.xlsx
[x] QBQ (Extração em 07/12/2023): OcupacoesCBO_QBQ.xlsx
[x] CBO (Extração em 07/12/2023): CBO2002 - Ocupacao.csv
[x] DTB: API IBGE
[x] CNCST
[x] CAGED (Novo CAGED ~3GB, acesso local)
[x] CAGED (Novo CAGED ~3GB, acesso remoto)

marcelromano commented 8 months ago

Para a extração e sincronização das bases de dados do CAGED, proponho a utilização de um shell script que faça a tarefa (como exemplo do wget 1-liner abaixo) e uma sincronização para uma cloud utilizando o rclone:

wget -r -np -nH --cut-dirs=2 "ftp://ftp.mtps.gov.br/pdet/microdados/NOVO CAGED"

Script completo:

#!/bin/bash
PASTA="NOVO CAGED"
DEST="compilado"
#wget -r -np -nH --cut-dirs=2 "ftp://ftp.mtps.gov.br/pdet/microdados/NOVO CAGED"
for ano in "$PASTA"/*
do
    if [ -d "$ano" ]
    then
        for mes in "$ano"/*
        do
            if [ -d "$mes" ]
            then
                for zip in "$mes"/*.7z
                do
                    f=$(basename -- "$zip")
                    f="${f%.7z}"
                    if [ ! -f "$DEST/$f.txt.gz" ]
                    then
                        echo "Processando $f"
                        7za e "$zip" "-o$DEST"
                        gzip -9 "$DEST/${f%.7z}.txt"
                    fi
                done
            fi
        done
    fi
done

marcelromano commented 8 months ago

Podemos utilizar esse caso para teste da infraestrutura Azure, com o storage e disponibilização dos dados em lake.

damascenaluiz commented 8 months ago

Poderia ser uma oportunidade de testar o conector FTP e se não atender tentamos subir este script ou adaptar para alguma linguagem suportada em uma function.

bmarbueno commented 8 months ago

CAGED

Novo Caged

Arquivos de movimentação ("CAGEDMOV")

Anos: 2020 a 2023 31.697.827 linhas carregadas

rogerioluizsi commented 7 months ago

Junto com o @damascenaluiz começamos a desenvolver uma estratégia que pudesse fazer a ingestão incremental dos dados do CAGED de maneira automatizada no Azure data lake. O ADF da Azure mostrou-se inviável pela 1) complexidade das consultas recursivas e necessidade de descompactar os arquivos que estão em 7z (não realizado nativamente pelo Azure). Dessa forma partimos para a implementação de Azure functions aqui e aqui. Apesar de ambas as funções funcionarem localmente com teste feito no próprio CAGED e no ambiente simulado Azurite, em produção as coisas não funcionaram bem. Debruçando um pouco mais em um das funções percebi que parece ter um bloqueio para o FTP do CAGED a partir da Azure. O anexo mostra que a função tem acesso a internet e inclusive consegue acessar e listar os arquivos de um servidor FTP nos moldes do CAGED (speedtest que é público e tb escuta na porta 21), mas não cosegue nem mesmo dar um "ping" via conexão socket no CAGED na mesma porta. Irei avaliar se o mesmo ocorre a partir do ADF.

ftp_cged_error caged_ERRRO