[x] arrumar informação de CEP que está sem os zeros a esquerda
[x] incluir testes padrão + testes personalizados
[x] Transformar todas as colunas que tem dicionário em string
Levar dados de produção para dev - Dahis mexeu diretamente no bucket de prod.
Prezados João, espero que se encontrem bem.
Meu nome é Alexandre, trabalho no Cedeplar e Dataviva e sou usuário frequente do Base dos Dados. Tempos atrás inclusive fizemos uma reunião sobre o BDD e Dataviva, não se você irá recordar.
O motivo de meu contato é que encontrei o que pode ser uma pequena inconsistência nos dados da RAIS que estão no BDD e achei por bem avisá-los. Não sei quem é o responsável pela RAIS, porém como eu tinha seu contato em mão vou enviar para você e tenho certeza que você dará a destinação devida.
Há muito tempo já utilizo esses dados, porém hoje fazendo algumas atualizações notei que os valores de emprego total que eu encontro em minhas tabulações próprias para o ano de 2019 a partir dos microdados é diferente daquela que obtenho via BDD. O valor da BDD também difere daquele disponível no https://bi.mte.gov.br/bgcaged/. A diferença é de 837.719 empregos a mais na BDD e é apenas para 2019 que há essa diferença significativa.
Segue abaixo o um print do bi.mte e outro dos dados no R que estão os valores de minha própria tabulação, do bi.mte e do BDD.
Como achei que poderia ser falha minha, fiz novamente o download dos dados de 2019, testei e persistiu a diferença. Em anexo, segue um zip com todos os dados que usei e um script de R que faz as comparações.
Caso eu esteja fazendo algo errado, peço a gentileza de me avisarem para que eu possa corrigir em meus scripts.
Abraço,
Relação aos dados da Região Norte:
Em relação aos dados da região Centro-Oeste:
Em relação aos dados da Região Sul:
Em relação aos dados da Região Nordeste:
Em relação aos dados de ES, MG e RJ:
Em relação aos dados de SP:
Realmente, o rapaz estava certo. Os nossos dados para o ano de 2019 estão incoerentes.
Dados originais:
Nossos dados:
Realmente há uma diferença de 837.719 a mais no nossos dados.
Levar dados de produção para dev - Dahis mexeu diretamente no bucket de prod.
Prezados João, espero que se encontrem bem.
Meu nome é Alexandre, trabalho no Cedeplar e Dataviva e sou usuário frequente do Base dos Dados. Tempos atrás inclusive fizemos uma reunião sobre o BDD e Dataviva, não se você irá recordar.
O motivo de meu contato é que encontrei o que pode ser uma pequena inconsistência nos dados da RAIS que estão no BDD e achei por bem avisá-los. Não sei quem é o responsável pela RAIS, porém como eu tinha seu contato em mão vou enviar para você e tenho certeza que você dará a destinação devida.
Há muito tempo já utilizo esses dados, porém hoje fazendo algumas atualizações notei que os valores de emprego total que eu encontro em minhas tabulações próprias para o ano de 2019 a partir dos microdados é diferente daquela que obtenho via BDD. O valor da BDD também difere daquele disponível no https://bi.mte.gov.br/bgcaged/. A diferença é de 837.719 empregos a mais na BDD e é apenas para 2019 que há essa diferença significativa.
Segue abaixo o um print do bi.mte e outro dos dados no R que estão os valores de minha própria tabulação, do bi.mte e do BDD.
Como achei que poderia ser falha minha, fiz novamente o download dos dados de 2019, testei e persistiu a diferença. Em anexo, segue um zip com todos os dados que usei e um script de R que faz as comparações.
Caso eu esteja fazendo algo errado, peço a gentileza de me avisarem para que eu possa corrigir em meus scripts.
Abraço,
Relação aos dados da Região Norte:
Em relação aos dados da região Centro-Oeste:
Em relação aos dados da Região Sul:
Em relação aos dados da Região Nordeste:
Realmente, o rapaz estava certo. Os nossos dados para o ano de 2019 estão incoerentes.
Realmente há uma diferença de 837.719 a mais no nossos dados.