Ironhack-data-bcn-feb-2023 / project-III-eda-etl

0 stars 1 forks source link

Project - Educación #6

Closed georginamanyanic closed 1 year ago

georginamanyanic commented 1 year ago

https://github.com/georginamanyanic/Project--III.git

Me falta modularizar :')

carlajsv commented 1 year ago

Hola Georgina 👋🏾

Te dejo los comentarios del proyecto:

Organización de los archivos🧹

Los archivos están muy bien ordenados, faltó la carpeta de my code, pero está muy bien todo en general, sobretodo con respecto al proyecto anterior.

README.md ✍🏽

Importante en el README debe aparecer si o si Cuál es el contenido del repo?, qué contiene cada archivo? qué podemos encontrar en las carpetas?. Esto debe ser una información indispensable.

Excelente el hecho de que hayas puesto de donde conseguiste los datos.

Estaría guay hacer un poco de storytelling y ayudarte con visualizaciones (graficos) para ayudar a entender de manera clara el proceso que seguiste, el analisis que realizaste y por que llegaste a esas conclusiones.

The code < > 👨🏽‍💻

src/cleaning.py

Excelente que tengas mucho código en funciones, es importantísimo y más alla de eso, también felicidades por haber comentado las funciones con el comentario rojo 👏🏼👏🏼, muy bien que hayas puesto los argumentos que recibe la función, yo si que le agregaría lo que devuelve también, es importante saber qué tipo de objeto o qué resultado te da la función, pero de resto, excelente.

Otra cosa que me gustó es que los nombres de las funciones describen lo que hacen de una manera simplificada.

src/mapping.py

En este archivo no están comentadas las funciones, supongo que es por falta de tiempo, sin embargo, me gustó mucho que metieras el código de los gráficos en funciones. Esto es realmente util cuando se van a hacer muchas visualizaciones y se quieren estandarizar los estilos, sin embargo, si las visualizacioens son pocas, no vale mucho la pena, ya que cada una depende mucho de los datos.

Cleaning and Seeding DB.ipynb

Imagino que igual por falta de tiempo no quitaste las funciones del notebook, sin embargo te comento: Por ejemplo, en la funcion def borrar_columnas(df, list_columns), si te fijas, ya usas la función drop() dentro, para este caso y algunos otros en tu notebook no hace falta crear una funcion, la idea de modularizar es poder simplificar el codigo y ser mas eficiente con procedimientos que sean repetitivos en varias etapas de tu notebook, sin embargo, si es aplicarle una función a tus df, lo mejor es hacerlo directamente y ya.

No se qué parte sería este notebook o si faltó completarlo, te recomiendo lo arregles en cuanto tengas tiempo.

Visualization.ipynb

Me costó mucho leer este notebook, porque habían muchas funciones definidas pero no se si son las de los archivos .py u otras?

Me gustó que en varias funciones hayas utilizado SQL y hayas manejado varias transformaciones por ahi.

No me puedo ver las visualizaciones.

Visualizaciones 🎨

En las visualizaciones estaría guay saber en el eje x a que barra pertenece qué numero, por ejemplo, la primera viz de la distribucion de la renta no se exactamanete a qu ebarra pertenece cada valor y.. cual es la media y la mediana?

No me salen varias de las visualizaciones que pusiste en el archivo, por lo que no puedo corregir bien.

sql.sql

El archivo SQL esta muy bien, est'a ordenado y comentado, te felicito por intentar usarlo, tiene un muy buen valor añadido.

General

Hay muchas cosas que mejorar con respecto al orden del codigo, fue muy dificil leer el archivo de visualización, te recomendaría colocar las visualizaciones mas importantes en el README, así puedes prevenir para que pasen estas cosas.

De igual forma, te felicito por todo el esfuerzo que hay detrás de este proyecto, se que te esforzaste mucho!