Entrega 3: Carga de datos

cebabeltran commented 1 year ago

Hola! Tenemos una duda con respecto a la carga de datos, no nos queda claro cómo abordar este proceso en cuanto al tema de preprocesamiento, scripts y la población de tablas. Tenemos las siguientes preguntas:

Si queremos alterar las tablas .csv subidas a GitHub para que coincidan con nuestro modelo (por ejemplo con pandas), ¿hay que realizar estas acciones en el script de la carga con los archivos sin modificar (copiados directamente de los datos que subieron)? ¿o podemos limpiarlas externamente para que queden en el formato de nuestro modelo, y luego subirlas a la carpeta de entrega?
Cuando hablan de errores en la carga ¿a qué tipo errores se refieren? ¿Se espera que hayan errores en las tablas para probar el manejo del script, o se puede dar el caso de que la tabla no tenga errores?
Todo el tema de create tables, para crear las tablas del modelo, ¿hay que realizarlo de manera manual en el SQL de la terminal? ¿O el script debe incluir la creación de las tablas?
La corrección del dato erróneo, en caso de encontrarse, ¿depende del script o depende de nosotros? Osea ¿El script debe corregir errores o solo reportarlos?

Gracias de antemano!

antoniablanco commented 1 year ago

Hola, P1: Se deben corregir los datos en el script no de forma externa. P2: Con errores se refiere a datos que no tiene sentido, que son nulos cuando no deberían serlo o repetidos. Inconsistencias. P3: Revisen si es que las tablas no se encuentran creadas, pero nada se debe realizar manual. Todo debe ser reproducible. P4: Los datos deben corregirse en el script dado que tiene que poder ser reproducibles.

spoblete44 commented 1 year ago

Hola, para quedar mas claro, entonces deberiamos de crear un script q cree las tablas q hicimos en el modelo E/R?

antoniablanco commented 1 year ago

Hola, no es necesario que se encuentren dentro del script. Pero les puede facilitar por si deben volver a crearlas ante cualquier error.

ypne commented 1 year ago

P:Si queremos alterar las tablas .csv subidas a GitHub para que coincidan con nuestro modelo (por ejemplo con pandas), ¿hay que realizar estas acciones en el script de la carga con los archivos sin modificar (copiados directamente de los datos que subieron)? R: Los datos NO se puede cambiar manualmente de ninguna forma, si en Pandas o algun otro tipo de sw, scriript se puede automatizar, SI se puede

P: podemos limpiarlas externamente para que queden en el formato de nuestro modelo, y luego subirlas a la carpeta de entrega? R: No se pueden manipular externamente los datos entregados

P: Cuando hablan de errores en la carga ¿a qué tipo errores se refieren? R: Se refiere a cualquier error de formato, caracteres no válidos y CONSTRAIN

P: ¿Se espera que hayan errores en las tablas para probar el manejo del script, o se puede dar el caso de que la tabla no tenga errores? R: Los datos contienen errores no todos los CSV los contienen

P: Todo el tema de create tables, para crear las tablas del modelo, ¿hay que realizarlo de manera manual en el SQL de la terminal? ¿O el script debe incluir la creación de las tablas? R: Puede ser manual no es necesario crearlos en el script

P: La corrección del dato erróneo, en caso de encontrarse, ¿depende del script o depende de nosotros? Osea ¿El script debe corregir errores o solo reportarlos? R: Algunos datos los puede corregir el script, por ejemplo un error de formato en la fecha o el reemplazo de caracteres erróneos. Otros tendrán que hacerlo externamente en un POST PROCESO que puede ser manual dependiendo de la solución que encontraron.

TODAS LAS CORRECCIONES DEBEN ESTAR DOCUMENTADAS EN EL README

IIC2413 / Syllabus-2023-2

Entrega 3: Carga de datos #310