Proyecto pipelines

Hola hola Maria Luisa 🙋🏻‍♀️ vamos con el segundo proyecto!

README

En general el readme esta super bien Maria Luisa, muy buen trabajo. Te dejo por aquí algunos tips de cara al futuro por si te aportan valor:

Puedes poner el link a la página de kaggle para que la gente pueda ver de donde se ha sacado el csv y la descripción del dataset.
Tienes las librerías que has usado en este proyecto, lo cual esta perfecto, pero si ya pones los links a la documentación oficial quedaría perfectoooo
Dado que en este proyecto teniamos que hacer un pipeline hubiera estado bien que lo incluyeras en el readme. Que explicaras donde estaba el fichero y que es lo que hace. Al final lo que tienes en el readme es lo mismo que leeremos luego en los jupyters, intentar darle una vueltina más a esto.
En esta misma linea, podrias incluir una apartado donde cuentes el workflow de tu trabajo. Por ejemplo:
- Primero usamos el fichero .py para descargar y limpiar el dataset original
- Se añadió valor a nuestros datos usando la API bla bla bla
- Al final se creo un jupyter de visualización donde contestamos a nuestras hipótesis combinando la información del dataset y de la API

Estructura del repo

La organización esta perfecta Maria Luisa, pero ya sabes que algún detallito siempre hay:

Estaría muy bien si crearas una carpeta que se llamará por ejemplo Notebooks donde guardaras todos los jupyters que has usado en el proyecto
Además si lo números para saber cual es el orden de trabajo quedaría perfecto 😉
En este caso también podrías haber incluido una carpeta (por ejemplo data ) donde guardaras el archivo .csv que has usado en este repo y los datos limpios que hayas podido generar de la llamada a la API.

Sintaxis de código

Vamos con la parte de código desgranando cada fichero que tienes en tu repo:

downloading-and-cleaning

En general este archivo esta perfecto y muy bien documentado, enhorabuena, super fácil de seguir 💪
- Los imports de las funciones y de los modulos que nosotros hemos creado en el archivo .py todo al inicio del jupyter o en este caso del .py
- Los docstrings dentro de la función 😉
- Si bien tienes creadas algunas funciones a las que llamas en tu .py lo ideal es que este archivo este lo más limpio posible. ¿Qué quiere decir esto?
Basicamente que en este fichero solo debemos tener funciones, es decir, todo el proceso de limpieza tenerlo definido en funciones a las cuales llamaremos desde el archivo .py. Si te queda alguna duda con esta parte dime y lo vemos juntas.

Por el resto suuuper buen trabajo Maria Luisa
API_IMDb_rapidapi

Super la API 💪, poco o nada que decirte, solo un par de detallines:
- Tienes alguna función en este archivo en el mismo jupyter, llevatelas a un .py e importalas en jupyter.
- Porfissss los prints infintosssss 😔
Movies_Analysis2

Tienes mucha visualización lo cual le aporta mucho valor a tu proyecto, vamos con algunos comentarios:
- El principal, a lo largo de todo el jupyter utilizas principalmente dos tipos de gráficas, lo que haces es modificar algunas cositas para ajustarlas a cada tipo de pregunta. Como reto para el futuro lo que puedes crearte dos funciones que reciban como parámetros las cosas que vas modificando a lo largo del jupyter.
- En general esta muy bien como te dije, con una gran cantidad de trabajo y todo muy completo, pero me falta un poco más de storytelling al final no me cuentas cuales son las respuestas de tus hipótesis y el por qué de tus resultados.

TODOs

En general buen trabajo en este proyecto Maria Luisa, en este proyecto hemos aprendido la importancia de nutrir nuestros datos con datos de otras fuentes y de lo importantes que pueden ser las APIs para nosotros por la gran cantidad de información que nos pueden dar. Te dejo por aquí un resumen de la revisión:

El readme cambiar algunas cosinas como las librerias para que quede perfecto
Modularizar un poco más el código
Storytelling

Aún con todo lo que te dije, trabajazo 🔝!!!

Ironhack-Data-Madrid-Agosto-2021 / W3-pipelines-project

Movie genre/ratings vs box-office earnings #1

Proyecto pipelines

README

Estructura del repo

Sintaxis de código

TODOs