Workgroup6 - Githubissues

Reshape - Script R y Python (Jupiter notebook)

Información resumen del programa Juntos en el siguiente link

https://www.gob.pe/institucion/juntos/institucional

En terminos general, el gobierno entrega una transferencias a hogares pobres condicionado al cumplimiento de algunos compromisos: asistencia de las y los niños a la escuela, uso de servicios de salud de los menores o madre gestante. Se busca garantizar el consumo del hogar de servicios básicos como educación y salud, los cuales tiene efectos de largo plazo en el desarrollo de las personas.

En la carpeta Juntos_program hallarán dos bases de datos del programa juntos. La primera base de datos data.dta es una muestra de ENAHO (panel 2015-2019) (base formato wide) . La unidad de observación es a nivel de persona. En otras palabras, se ha entrevistado a las mismas personas durante 5 año. Las base de datos posee las siguientes variables para cada año: numper (Unique individual identifier), numpanh (Unique household identifier in 2015), mes (Month of the survey in 2015), ubigeo, dominio, p400a3_15 (Year of birth of the person, reported in 2015), p4022 (Were you sick in the last 4 weeks? Values: 1 (=Yes), 0 (=No).)
La base de datos unidos.dta es una lista de todos los distritos del Perú. Adicionalmente, una variable indica si se aplicó el programa Juntos en el distrito. La base de datos cuenta con la siguiente información: ubigeo, distrito, provincia, region y unidos (Porgrama Juntos applied in the district? Values: 1 (=Yes), 0 (=No).)
La tarea consiste en formar una base de datos a partir de las bases data.dta y unidos.dta. Para ello, debe transformar la base data.dta a un formato long, luego hacer merge con la base unidos.dta. En el proceso de formato wide a long, use la variable numper como identificador.
Añadir labels (etiquetas) a todas las variables y labels de valores a las siguientes variables (p4022 y unidos) (Solo en R).

Extraer tablas de PDF (solo Python)

La carpeta JEC contiene el PDF correspondiente a cada grupo.
Usted debe extraer las tablas con la información de las escuelas de jornada escolar completa. Debe convertir las tablas a un solo dataframe. Exportar el archivo dataframe en formato .dta (stata) con el nombre jecdata(numero de grupo)
El script que extrae tablas de PDF se encuentra en el Lecture_9. Ojo, como se comentó en clase, usted deber correr el script en Google Colab (Solo googlear y hacer clink en el primer resultado de las búsqueda).
Deben descargar el script en formato jupyter notebook (.ipynb) asi como la base de datos .dta. Guardar estos archivos en la carpeta tarea6.

Para decargar el script debe ir a la opción archivo, desplazarse hasta la opción descargar y elegir el formato .ipynb. Respecto, a la descarga de la base de datos, primero guarde la base en la carpeta sample_data. Luego hacer click derecho en el archivo para descargar.

_ Importante: Recordar que escribir código es como redactar. En ese sentido, se calificará el orden, añadir comentarios y subtítulos. Recuerde verificar todas las líneas de código y que no haya problemas. Yo espero no encontrar errores al correr sus scripts. El script de su grupo debe tener el siguiente nombre. Un ejemplo, Grupo_2_py, Grupo_2r* para nombrar los scripts de python y R respectivamente

Las bases de datos están en la carpeta data

Guardar sus scripts en la siguiente carpeta Labs\tarea6

Deadline: domingo 11 de junio 11:59 pm

Robertopucp / 1ECO35_2023_1

Workgroup6 #141

Reshape - Script R y Python (Jupiter notebook)

Extraer tablas de PDF (solo Python)