LaiaAyats / People-Analytics

0 stars 1 forks source link

Fase 5: Creación de ETL (PARTE 1) #12

Open carla-caracola opened 4 months ago

carla-caracola commented 4 months ago

Enunciado de GitBook:

En esta fase del proyecto, deberás crear un archivo .py que llevará a cabo la extracción, transformación y carga (ETL) de datos. El objetivo de esta etapa es automatizar la inserción de datos en la base de datos relacional y garantizar que la información se actualice de manera consistente y también automatizar el proceso de transformación de la información antes de la insercción en la BBDD. Los pasos que deberás seguir en esta fase son:

Extracción de Datos: En esta primera parte de la ETL, las alumnas desarrollarán una función para extraer datos desde las fuentes de datos previamente definidas. Estas fuentes pueden incluir hojas de cálculo, archivos CSV, bases de datos externas o cualquier otro formato de datos relevante. El objetivo es obtener datos frescos y relevantes que se cargarán en la base de datos.

Transformación de Datos: Deberás desarrollar una función (o varias) para aplicar todas las transformaciones necesarias para garantizar la integridad y la calidad de los datos (estas transformaciones serán las mismas que en la fase 2).

Creación de la Base de Datos: En esta etapa, crearás una función con el código para la creación de la BBDD diseñada en la fase 3.

Carga de Datos: Después de la creación de las tablas, desarrollaras funciones que permitan la inserción de datos transformados en la base de datos. Esto garantizará que la base de datos esté siempre actualizada con la información más reciente.

NOTA Todo este código deberá estar en funciones y en archivos .py.

carla-caracola commented 3 months ago

Otros cambios realizados:

carla-caracola commented 3 months ago

La estructura quedó como en la imagen.

Image

Queda pendiente: Definir dónde guardamos al archivo de conclusiones del análisis exploratorio (conclusions_exploratory_data_analysis.md) en este nuevo esquema. no lo veo claro. De momento lo dejé fuera, a la altura del main. Definir dónde guardamos el archivo DB_initial_structure (veamos luego si es necesario tenerlo y dónde). De momento lo dejé fuera, a la altura del main. El archivo "DS_store" no sé bien qué es, y por lo tanto no sé donde debe ir. De momento lo dejé fuera, a la altura del main.