ropensci / eph

Herramientas para procesamiento de la base usuaria de la EPH
https://ropensci.github.io/eph/
Other
58 stars 18 forks source link

Agregar función calculate_errors() y data errores_muestrales #35

Closed jgjuara closed 2 years ago

jgjuara commented 2 years ago

Hola! Siguiendo con la propuesta comentada en este issue, armé la tabla errores_muestrales con la info de los dos periodos a partir de la documentación de INDEC 2003.03_2014.02 y 2014.03 y la función calculate_errors() para asignar a una estimación de población el error muestral correspondiente según esas tablas.

En errores_muestrales.R me basé en el script de @DiegoKoz . Los datos de la tabla del periodo 2003.03_2014.02 no pude obtenerlos con tabulizer::extract_tables() y tuve que usar la selección manual de la tablas con tabulizer::extract_areas(), después usé dput() para conseguir la definición del output de tabulizer::extract_areas(). Es una section de código no muy legible pero creo que preserva mejor la reproductibilidad del código y su transparencia. Después de esa sección el código sigue lo comentado en el issue: preprocesamiento de los datos crudos obtenidos con tabulizer en base al script de Diego y preprocesamiento para agregarles a las tablas el codigo de aglomerado que les corresponda. Cabe destacar que la documentación de INDEC para el periodo 2003.03_2014.02 incluye un dominio que no existe en el periodo siguiente ni se corresponde con un aglomerado del diseño de EPH: "Aglomerado Gran Buenos Aires", que no es lo mismo que "Aglomerado Partidos de GBA" (codigo 33).

En calculate_errors.R defino una función que asigna a un vector numérico el desvío estándar o el coeficiente de variación que le corresponde según las tablas de errores muestrales de INDEC, teniendo en cuenta también el periodo al que corresponde la EPH (2003.03_2014.02 ó 2014.03 en adelante) y el aglomerado o dominio de estimación al que pertenezca. Esta función facilitaría presentar tabulados junto con información del error muestral publicado por INDEC y calcular tasas junto con sus desvíos o coeficientes de variación o intervalos de confianza basados en la documentación de INDEC.

Como comenté en el issue de donde surge esto, la idea es facilitar acompañar los datos de EPH con información del error muestral, sobre todo considerando que por el momento CEMRepBoot todavía no incluye estimaciones de varianza para la EPH.

Documenté ambas cosas, devtools::check() no devolvió errors, warnings ni notes. Para control de parametros de la función usé assert_that(). En el DESCRIPTION me agregué como contributor también.

Estoy atento a cualquier duda, sugerencia o corrección que les parezca necesaria! Saludos!

DiegoKoz commented 2 years ago

genial @jgjuara ,

El check local no tuvo problemas. Voy a correr un devtools::check_rhub() y devtools::check_win_devel() que son unos check que corren en unos servidores con diferentes sistemas operativos (windows, linux, max, fedora, etc). Para ver que no haya problemas y después hago el merge 💯