ropensci / eph

Herramientas para procesamiento de la base usuaria de la EPH
https://ropensci.github.io/eph/
Other
58 stars 18 forks source link

CH15_COD #23

Closed frbenites closed 3 years ago

frbenites commented 3 years ago

Hola! Estaba usando la variable CH15_COD y me di cuenta de que para el 2do, 3er y 4to trimestre de 2016 las bases obtenidas con get_microdata() y la publicada por INDEC difieren en esta variable.

base_descargada_por_mi_del_indec <- readxl::read_excel('data/usu_individual_T216.xls')
base_2016t2_ind <- eph::get_microdata(year = 2016, trimester = 2, type = 'individual')

head(base_descargada_por_mi_del_indec$CH15_COD, n= 10)
# [1] NA    "tuc" NA    NA    NA    NA    NA    NA    "bol" "par"
head(base_2016t2_ind$CH15_COD, n = 10)
#  [1]   1 138   1   1   1   1   1   1  14 102

Como info adicional sobre la variable, CH15_COD contiene el código que hace referencia al lugar de origen de un inmigrante ya sea interno o extranjero. Para 2017 en adelante los valores de la variable son números tal como los que se encuentran en este link. Pero en los trimestres 2, 3 y 4 de 2016 (no entiendo por qué pero es así jaja) INDEC usa strings para referirse a los distintos lugares. Son combinaciones de letras como por ejemplo para alguien que nació en Perú, puede tomar los valores "PER", "per", o "Per".

DiegoKoz commented 3 years ago

@pablotis sabes esto qué onda? @frbenites me decía que hace unos meses las variables estaban igual que en la página de INDEC, así que supongo que es algo que cambio en (https://github.com/holatam/data/commit/8284bc9c740fdb9e419a09385ff24e5969fade4d) no?

pablotis commented 3 years ago

Hola @frbenites!

Gracias por el aviso. A partir del año 2016 el INDEC empezó a corregir algunas inconsistencias de años anteriores. En el caso que nos comentás, había algunos problemas de consistencia entre la CH15 y la CH15_COD (por ejemplo: declara que nace en un país limítrofe y en el CH15_COD surgen valores de provincias). Durante el 2016 se publican tal cual los valores para que cada uno pueda consistir, y recién a partir del 2017 se corrigen en el microdato ya que se retoma al sistema de ingreso previo al 2008 (que contempla esta consistencia).

En cuanto al paquete, ya está corregido el problema, se toman los valores publicados (de tipo cáracter). Queda como tarea hacer un ejercicio de recodificación y que sea directamente comparable con el resto de la serie.

Saludos y cualquier cosa, nos avisas!