Comentarios sobre proyecto EDA

Hola, Víctor. De forma global veo bien tu proyecto: el repositorio del proyecto tiene la estructura adecuada, realizaste el EDA en Jupyter notebook, compartiste el link del proyecto en el repositorio del curso, agregaste un issue con la liga donde divulgaste el proyecto, la entrega se realizó antes del deadline.

A continuación te comparto mis comentarios para algunas secciones, con mayor detalle.

Estructura del repositorio

La estructura es adecuada y seguiste las recomendaciones del paper Good Enough Practices in Scientific Computing.

En el archivo README.md en la carpeta principal del repositorio se incluyó la descripción general del proyecto, un resumen de resultados y la liga del Jupyter notebook con el análisis EDA.

Cada carpeta incluye un archivo README con su descripción general. Recomendaría que, para las carpetas que tenga varios archivos, añadas una descripción más amplia donde se mencione de forma general el objetivo de la carpeta y los archivos (al menos, los más destacados).

Análisis EDA

Revisé el Jupyter notebook para buscar replicar tus resultados y estos son los comentarios que fueron surgiendo al correr el código:

Cuando defines el path donde están tus bases de datos le falta regresar de carpeta antes de entrar a la carpeta data, es decir, el código debería quedar de la siguiente amnera:

excel_files_directory = '../data/Precipitacion/'

Recomiendo que al inicio tengas una sección con todas la las librerías que utilizas en tu notebook, lo comento porque, aunque al inicio declaraste varias librerías, como a la mitad del análisis mandas a llamar a las librerías datetime y `matplotlib .

En general veo muy bien tu análisis, se me hizo interesante y me gustaron las gráficas, resaltando lo que querías mostrar dándole se énfasis.

Por si te quiere familiarizar con Altair, a manera de ejemplo hice una gráfica de mapa de calor con la precipitación mensual, por mes y año, a nivel nacional y en Nuevo León. A continuación te comparto el código para limpiar y graficar esta información:

# FUNCIONES. Primero hacemos un par de funciones para extraer el año (y el mes) basado en el proyecto de Daniel Isita

def fetch_year(date):
    return date.split("-")[0]  #extrae el año

def fetch_month(date):
    return date.split("-")[1]  #extrae el mes

# BASE DE DATOS. Limpiamos la información para poder imprimirla más fácilmente
aux = pd.DataFrame(df.set_index("ENTIDAD").stack()).reset_index().rename(columns={"level_1":"FECHA", 0:"PRECIPITACION"})
aux["AÑO"] = aux["FECHA"].apply(fetch_year)
aux["MES"] = aux["FECHA"].apply(fetch_month)
aux = aux[(aux["ENTIDAD"]=="NACIONAL") | (aux["ENTIDAD"]=="NUEVO LEÓN")]

# Gráfica
import altair as alt
alt.data_transformers.disable_max_rows()

alt.Chart(aux).mark_rect().encode(
    alt.X("MES"),
    alt.Y("AÑO", sort="-y"),
    alt.Color("PRECIPITACION:Q"),
    alt.Column("ENTIDAD"),
    tooltip=["AÑO", "MES", "PRECIPITACION"]
).properties(
    title="Precipitación por mes y año en Nuevo León vs Nacional"
)

Comentarios finales

Me pareció completo el análisis exploratorio sobre precipitación acumulada mensual en Nuevo León. La estructura del repositorio, el análisis, visualizaciones y comentarios son adecuados e interesantes. Me pareció muy bueno que, a lo largo del análisis visual, fueras comentando los hallazgos. ¡Muy buen esfuerzo y muchas felicidades!

Saludos, Víctor Cuspinera

victortg95 / EDA_precipitacion_Mexico