basedosdados / queries-basedosdados

🔍 Gerenciador de modelos de transformação de dados (ELT) no datalake
8 stars 4 forks source link

[fix] br_me_rais #565

Closed laura-l-amaral closed 6 days ago

laura-l-amaral commented 3 months ago

Levar dados de produção para dev - Dahis mexeu diretamente no bucket de prod.


Prezados João, espero que se encontrem bem.

Meu nome é Alexandre, trabalho no Cedeplar e Dataviva e sou usuário frequente do Base dos Dados. Tempos atrás inclusive fizemos uma reunião sobre o BDD e Dataviva, não se você irá recordar.

O motivo de meu contato é que encontrei o que pode ser uma pequena inconsistência nos dados da RAIS que estão no BDD e achei por bem avisá-los. Não sei quem é o responsável pela RAIS, porém como eu tinha seu contato em mão vou enviar para você e tenho certeza que você dará a destinação devida.

Há muito tempo já utilizo esses dados, porém hoje fazendo algumas atualizações notei que os valores de emprego total que eu encontro em minhas tabulações próprias para o ano de 2019 a partir dos microdados é diferente daquela que obtenho via BDD. O valor da BDD também difere daquele disponível no https://bi.mte.gov.br/bgcaged/. A diferença é de 837.719 empregos a mais na BDD e é apenas para 2019 que há essa diferença significativa.

Segue abaixo o um print do bi.mte e outro dos dados no R que estão os valores de minha própria tabulação, do bi.mte e do BDD.

Como achei que poderia ser falha minha, fiz novamente o download dos dados de 2019, testei e persistiu a diferença. Em anexo, segue um zip com todos os dados que usei e um script de R que faz as comparações.

Caso eu esteja fazendo algo errado, peço a gentileza de me avisarem para que eu possa corrigir em meus scripts.

Abraço,



Image Image






Realmente, o rapaz estava certo. Os nossos dados para o ano de 2019 estão incoerentes.

Realmente há uma diferença de 837.719 a mais no nossos dados.