Gabriel-Assuncao / PNADcIBGE

Provides tools for downloading, reading and analyzing the PNADC, a household survey from Brazilian Institute of Geography and Statistics - IBGE.
26 stars 10 forks source link

Resultado difere da tabela do SIDRA #23

Closed EnriqPav closed 2 months ago

EnriqPav commented 2 months ago

Bom dia, Estamos tentando fazer uma pesquisa com os dados da pesquisa de turismo da PNADc, mas não estou conseguindo reproduzir os resultados apresentados no SIDRA. Por exemplo, ocorrência de viágem por moradores: image

Para reproduzi-la, como primeiro passo da pesquisa, apliquei o script abaixo:

# pnadc anual segunda entrevista -  módulo do turismo
variaveis_selecionadas <- c("UF", "S08001", "S08002")

turismo_23 <- get_pnadc(year=2023, interview=2, labels=TRUE, deflator=TRUE, design=FALSE, vars=variaveis_selecionadas)

# Aplicando a incorporacao do desenho amostral nos microdados
turismo_23 <- pnadc_design(data_pnadc=turismo_23)

# realização de viagem 
realizou_viagem <- svytotal(x=~S08001, design=turismo_23, na.rm=TRUE)
write.csv2(realizou_viagem, "realizou_viagem_23.csv")

O resultado, entretanto, se difere significativamente do encontrado no SIDRA: image

Como os dados estavam previamente corrompidos (https://github.com/Gabriel-Assuncao/PNADcIBGE/issues/21), não tenho certeza se o erro está neles ou no uso do pacote.

Desde já, agradeço.

Gabriel-Assuncao commented 2 months ago

Prezado @EnriqPav, boa tarde.

Conforme resposta fornecida hoje (30/09/2024) às 11:34 através do canal de atendimento pacotesipd@ibge.gov.br, primeiramente é importante indicar que conforme informações de https://github.com/Gabriel-Assuncao/PNADcIBGE/issues/21, os dados não estavam corrompidos, o que existia na verdade era uma duplicação dos arquivos de input e dicionário que não permitia a correta obtenção dos microdados através do pacote PNADcIBGE, sendo que não afetava a integridade do arquivo de microdados publicado no servidor do IBGE.

Com relação aos resultados apresentados, informamos que a diferença observada está no fato de não ter sido realizado o recorte a nível de domicílio, que precisa ser feito no momento da designação do valor para o argumento design no uso das funções do pacote survey a partir da função subset e da variável V2005 definida no valor de ‘Pessoa responsável pelo domicílio’, tendo sido fornecido via e-mail um código para replicação e obtenção correta de tais resultados, ou se preferir é possível utilizar o código disponibilizado em: https://github.com/Gabriel-Assuncao/Estimativas-das-Pesquisas/blob/main/PNADcIBGE_Turismo.R.

Como este atendimento já foi realizado através de outro canal, estaremos fechando esta issue e qualquer dúvida ou problema estamos à disposição no canal de atendimento indicado anteriormente.