Mariano - Project 3 - ETL Pipeline

Hola Mariano 👋🏾

Te dejo los comentarios del proyecto:

Organización de los archivos🧹

Gracias por seguir las instruccines de organización del proyecto con respecto a las carpetas y documentos que se debían entregar.

README.md ✍🏽

Excelente introducción en el README, el primer parrafo da a entender de que va este repo y por qué lo hiciste.

No hace falta poner una tabla de contenidos, sin embargo guay porque esta bien concreta.

Importante: La descripcion de los archivos que tienes dentro de tu repo es importante, sobretodo si tienes bastantes. Esto da una idea de en donde buscar si quisiera buscar algo en especifico. Sin embargo, la organización del repo esta bastante bien.

Excelente Storytelling del proyecto.

The code < > 👨🏽‍💻

Proyecto 3 - Statistics.ipynb

Recuerda mantener los notebooks en un solo idioma (preferiblemente inglés)

Veo que hay procedimientos que se repiten muchisimo bajo parámetros parecidos (df_match_x). Estos procedimientos son un indicativo de que se pueden definir funciones y encapsular los procedimientos.

Recuerda que las funciones definidas van en archivos .py. Sin embargo, buena definición y comentarios de algunas funciones. Recuerda colocar una breve descripción de los parámetros que reciben las funciones.

Las funciones de los gráficos no son necesarias, sobretodo porque son funciones que usas una única vez.

Con respecto al uso del teorema de bayes: No se si quizás lo hiciste y lo borraste, solo no encontre el calculo de esta probabilidad.

src/cleaning.py

Luego vi que si colocaste las funciones de los match, pero no se por que lo dejaste en el notebook anterior.

src/scraping.py

Recuerda comentar las funciones.

SQL/SQL_futbol_DB.sql

Excelente uso de SQL, me parece que esta muy bien logrado. Aparte, muy bien comentado.

Si te diria que en la carpeta de SQL quizás no pongas imagenes, pudieses abrir una carpeta de reportes para esas imagenes y las queries de estos reportes, colocarlas en un archivo sql comentando de que reporte es cada una.

Visualizaciones 🎨

En general las visualizaciones estan muy bien, creo que hiciste buen uso de los gráficos.

En las primeras graficas que son campanas de gaus (river Plate vs Córdoba y vs Platense), si creo que los ejes están incorrectos, ya que el eje x no podría ser la probabilidad porque esta solo está comprendida entre 0-1.

En el gráfico de la eficacia de los jugadores, sí colocaría barras en vez de puntos, los puntos por lo general se ven mejor en gráficos como los de dispersión, las barras en este caso ayudan a hacer una comparativa visualmente rapida de cada jugador, sobretodo los que tienen eficiencia cercana, por lo que unas barras estaría mas adecuado. Lo mismo para el gráfico de age vs goals.

El gráfico de las probabilidades sobre las faltas me gustó bastante, si pondría quizas un amarillo mas oscuro para que se aprecie más. Si te diría que, al igual que en el gráfico de los equipos, la probabilidad va de 0-1, yo revisaría ese detalle y lo arreglaría, esta es una de las cosas que las personas que buscan info relevante y pretenden medir tu conocimiento (recruiters, gente tech) se fijan más.

General

Muy bien el proyecto en lineas generales, supongo que la modularizacion quedó un poco a medias por el tiempo, es importante este aspecto, leer el notebook principal fun un poco tedioso por la cantidad de código que se repetía, para el próximo proyecto toma esto en cuenta, sobretodo porque es un proyecto mas elaborado y más largo.

En cuestión de organización, realmente estuvo muy bien el proyecto, sobretodo la concordancia con la que escribiste el README me encantó.

Felicidades por el esfuerzo, muy bien logrado.

Ironhack-data-bcn-feb-2023 / project-III-eda-etl