Closed nsidicaro closed 2 years ago
@pablotis @natsushok @gefero quizás ustedes saben sobre la codificación de aglomerado más que yo. Esta bien que sea así?
Gracias @nsidicaro por el comentario!
Hola @nsidicaro, cómo va? Me parece que la cuestión es así (no estoy 100% seguro, pero casi). Hasta 2006, las bases trimestrales sólo se publicaba la identificación de los aglomerados con más de 500.000 habitantes, dado que la muestra en los restantes aglomerados es muy pequeña para sacar estimaciones representativas. Creo que los casos "0", corresponden al resto de los aglomerados (osea, los más pequeños) que no figuran en la imagen que adjunto. En las bases semestrales de esos períodos, si está la desagregación de todos los aglomerados. Cualquier cosa chequeate los diseños de registros de este link. https://www.indec.gob.ar/indec/web/Institucional-Indec-bases_de_datos_eph_buc
Abrazo
Hola @nsidicaro
Dejo un resúmen de lo que indicó @Guidowe arriba, para que puedas corroborar esto.
Efectivamente, probé descargar de la base original que publica INDEC (en .dbf) para el 2003_t4. Todos los aglomerados con valor 0 corresponden a aquellos con menos de 500.000 habitantes. Allí deberías poder trabajar con las regiones, ya que esos mismos aglomerados con valor 0 tienen todos designada alguna región.
### Librerias
library(tidyverse)
library(eph)
### Descargo base directo de INDEC - personas_2003t4
temp <- tempfile()
temp_dir <- tempdir()
url <- "https://www.indec.gob.ar/dbindec/USU_403.zip"
download.file(url, temp, mode = "wb")
archivos <- unzip(temp, exdir = temp_dir)
b_eph_2003t4 <- foreign::read.dbf(archivos[2])
### Chequeo existencia de valores en 0
unique(b_eph_2003t4$AGLOMERADO)
### Chequep incidencia de los valores en 0
b_eph_2003t4 %>%
calculate_tabulates("AGLOMERADO")
### Chequeo que los aglomerados en 0 tengan alguna región
b_eph_2003t4 %>%
filter(AGLOMERADO == 0) %>%
calculate_tabulates("REGION")
### Chequeo aglomerados según variable MAS_500
b_eph_2003t4 %>%
filter(AGLOMERADO == 0) %>%
mutate(MAS_500 = case_when(MAS_500 == "N" ~ "Conjunto de Aglomerados de menos de 500.000hab",
MAS_500 == "S" ~ "Conjunto de Aglomerados de 500.000 y más hab")) %>%
calculate_tabulates("MAS_500")
Estimados,
Estoy realizando un análisis por aglomerados desde 2003 hasta 2019 y me encontré con que muchas observaciones tienen en la variable aglomerado valor "0". Si bien el análisis lo estoy haciendo para población adulta mayor, por lo que los números que adjunto son solo una parte de las observaciones totales de EPH, también encontré el problema en las bases sin filtrar. Sin filtrar el problema alcanza aproximadamente a la mitad de las observaciones.
Observaciones de población adulta mayor con aglomerado igual a cero:![image](https://user-images.githubusercontent.com/45496841/105611410-ed6f4480-5d93-11eb-95bb-2dfd4bf3859e.png)
Espero que les sirva el comentario. Muchas gracias por desarrollar este paquete, facilita muchisimo el trabajo. Saludos!