ropensci / eph

Herramientas para procesamiento de la base usuaria de la EPH
https://ropensci.github.io/eph/
Other
58 stars 18 forks source link

Aglomerados previos a 2006 con errores #27

Closed nsidicaro closed 2 years ago

nsidicaro commented 3 years ago

Estimados,

Estoy realizando un análisis por aglomerados desde 2003 hasta 2019 y me encontré con que muchas observaciones tienen en la variable aglomerado valor "0". Si bien el análisis lo estoy haciendo para población adulta mayor, por lo que los números que adjunto son solo una parte de las observaciones totales de EPH, también encontré el problema en las bases sin filtrar. Sin filtrar el problema alcanza aproximadamente a la mitad de las observaciones.

Observaciones de población adulta mayor con aglomerado igual a cero: image

Espero que les sirva el comentario. Muchas gracias por desarrollar este paquete, facilita muchisimo el trabajo. Saludos!

DiegoKoz commented 3 years ago

@pablotis @natsushok @gefero quizás ustedes saben sobre la codificación de aglomerado más que yo. Esta bien que sea así?

Gracias @nsidicaro por el comentario!

Guidowe commented 3 years ago

Hola @nsidicaro, cómo va? Me parece que la cuestión es así (no estoy 100% seguro, pero casi). Hasta 2006, las bases trimestrales sólo se publicaba la identificación de los aglomerados con más de 500.000 habitantes, dado que la muestra en los restantes aglomerados es muy pequeña para sacar estimaciones representativas. Creo que los casos "0", corresponden al resto de los aglomerados (osea, los más pequeños) que no figuran en la imagen que adjunto. En las bases semestrales de esos períodos, si está la desagregación de todos los aglomerados. Cualquier cosa chequeate los diseños de registros de este link. https://www.indec.gob.ar/indec/web/Institucional-Indec-bases_de_datos_eph_buc

imagen

Abrazo

pablotis commented 2 years ago

Hola @nsidicaro

Dejo un resúmen de lo que indicó @Guidowe arriba, para que puedas corroborar esto.

Efectivamente, probé descargar de la base original que publica INDEC (en .dbf) para el 2003_t4. Todos los aglomerados con valor 0 corresponden a aquellos con menos de 500.000 habitantes. Allí deberías poder trabajar con las regiones, ya que esos mismos aglomerados con valor 0 tienen todos designada alguna región.


### Librerias
library(tidyverse)
library(eph)

### Descargo base directo de INDEC - personas_2003t4
temp <- tempfile()
temp_dir <- tempdir()
url <- "https://www.indec.gob.ar/dbindec/USU_403.zip"
download.file(url, temp, mode = "wb")

archivos <- unzip(temp, exdir = temp_dir)
b_eph_2003t4 <- foreign::read.dbf(archivos[2])

### Chequeo existencia de valores en 0
unique(b_eph_2003t4$AGLOMERADO)

### Chequep incidencia de los valores en 0
b_eph_2003t4 %>% 
  calculate_tabulates("AGLOMERADO")

### Chequeo que los aglomerados en 0 tengan alguna región
b_eph_2003t4 %>% 
  filter(AGLOMERADO == 0) %>% 
  calculate_tabulates("REGION")

### Chequeo aglomerados según variable MAS_500
b_eph_2003t4 %>% 
  filter(AGLOMERADO == 0) %>% 
  mutate(MAS_500 = case_when(MAS_500 == "N" ~ "Conjunto de Aglomerados de menos de 500.000hab",
                              MAS_500 == "S" ~ "Conjunto de Aglomerados de 500.000 y más hab")) %>% 
  calculate_tabulates("MAS_500")