ipeaGIT / acesso_oport

IPEA - Projeto Acesso a Oportunidades
https://www.ipea.gov.br/acessooportunidades/
51 stars 20 forks source link

Corrigir outliers na localizalçao de empregos RAIS 2017 #16

Closed rafapereirabr closed 5 years ago

rafapereirabr commented 5 years ago

Criar função a partir de Limpeza_outliers_empregos_RAIS.R

kauebraga commented 5 years ago

Cerca de 70% dos registros nas categorias que a gente quer excluir os outliers não tem nenhum vínculo, o que é bem estranho

kauebraga commented 5 years ago

Done. Salvo como arquivo ../data/rais/rais_2017_corrigido.csv, que agora tem a coluna qt_vinc_ativos2 com o número de vínculos corrigido pelo método. Não vou fechar ainda por conta da ressalva acima..

rafapereirabr commented 5 years ago

Conversou com a Vanessa sobre isso? Pelo o que me lembro de ter conversado com ela, isso não é problema. Tem mesmo um número grande de empresas sem vínculo e que temos q excluir da base

Rafael H.M. Pereira

On 16 Jul 2019, at 18:27, Kauê Braga notifications@github.com wrote:

Cerca de 70% dos registros nas categorias que a gente quer excluir os outliers não tem nenhum vínculo, o que é bem estranho

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

kauebraga commented 5 years ago

Testei o mesmo código para 2015, e a quantidade de estabelecimentos sem vínculo é baixa (menor que 5%). Vou tentar conversar com a Vanessa agora pra ver o que ela acha. E também procurar onde eu possa ter errado aqui rs

kauebraga commented 5 years ago

De 1.140 milhões de estabelecimentos (só aqueles a serem corrigidos), mais de 70% não tem vínculo ativo

qt_vinc_ativos n
0 798432
1 108956
2 52570
3 33163
4 22879
5 16407
6 12621
7 9877
8 8170
9 6515
kauebraga commented 5 years ago

Conversei com a Vanessa, e é isso mesmo.. o número alto de vínculos zero é esperado. A diferença pra base de 2015 foi grande porque nela já teve um pré-tratamento dos vínculos

rafapereirabr commented 5 years ago

Joia.

Rafael H.M. Pereira

On 17 Jul 2019, at 19:33, Kauê Braga notifications@github.com wrote:

Conversei com a Vanessa, e é isso mesmo.. o número alto de vínculos zero é esperado. A diferença pra base de 2015 foi grande porque nela já teve um pré-tratamento dos vínculos

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.