Ironhack-Data-Madrid-PartTime-May22 / ETL_project

0 stars 0 forks source link

Proyecto-1: Extract Transform Load (ETL)

El objetivo de este proyecto es combinar todo lo que has aprendido sobre la gestión, limpieza y manipulación de datos. Al final, tendras que hacer una presentacion que nos cautive. Así que arremangase y vende te como nunca!

Desafio [Extracción]


Tendrás que demostrar tus habilidades obteniendo datos de distintas fuentes.

Desafio [Exploratory Data Analysis (EDA)]


El Análisis Exploratorio de Datos o en inglés Exploratory Data Analysis (EDA) es un método de análisis de los conjuntos de datos para resumir sus principales características. Recuerda que implica el uso de gráficos y visualizaciones para explorar y analizar tu conjunto de datos. El objetivo es explorar, investigar y aprender, no confirmar hipótesis estadísticas.

A partir de todos los datos recolectados. Deberas importarlos, usar tus habilidades de gestión de datos para limpiarlos, analizarlos y luego exportarlos como un archivo de datos CSV limpio.

TO DO's


Sugerencias


Desafio [Data Pipeline]


¿Qué es un pipeline? Un pipeline de datos es una serie de procesos de datos en los que la salida de cada uno es la entrada del siguiente, formando una cadena.

Esto es super útil para cuando necesitemos una misma función en distintos proyectos para reutilizarlos.

Para este apartado, deberas construir un pipeline de datos que procese los datos y produzca un resultado. Debes demostrar tus competencia con las herramientas que cubrimos en clase: funciones, clases, listas comprimidas, operaciones de strings, pandas y manejo de errores ... etc.

TO DO's


Los requisitos técnicos para esta parte del proyecto son los siguientes:

Desafio [Carga en BBDD]


Para este desafío tendrás que generar una base de datos con los datos tratados de la extracción.

TO DO's


Desafio [Estructura de Repositorio]


En este apartado tendrás que crear un repositorio para tu proyecto. Ten en cuenta que estas compartiendo tu código de manera publica con toda la comunidad; gente como tú que quiere ampliar conocimientos pero también con recruiters.

Es por eso que la estructura de un repositorio es esencial. Tienes que enganchar a tu lector. Tiene que ser accesible y esto empieza con un buen readme.

.gitignore


Recuerda que hay cierta información sensible. Restringela con el .gitignore

README.md


Aquí es donde presentas tu proyecto, donde tienes que venderte y cautivar al lector. Debes incluir la motivación del proyecto en la introducción. Ademas tendrás que incluir las hipotesis inciales, los pasos que has seguido, tus conclusiones, las tecnologías usadas y las fuentes de las que has obtenido tus datos.

Estructuras de carpetas


ejemplo :

1-extraccion_csv.ipynb
2-limpieza_csv.ipynb
3-llamada_API.ipynb

ejemplo:

suport_extraction.py
clean.py

Cómo entregar el proyecto