Alejandro-Barba / EDA_project

Análisis exploratorio de datos sobre entrega de pedidos
MIT License
0 stars 0 forks source link

Comentarios sobre proyecto EDA #4

Open vcuspinera opened 11 months ago

vcuspinera commented 11 months ago

Hola, Alejandro. De forma global veo bien tu proyecto: el repositorio del proyecto tiene la estructura adecuada, realizaste el EDA en Jupyter notebook, compartiste el link del proyecto en el repositorio del curso, agregaste issues con pendientes del proyecto, divulgaste tu proyecto a través de redes sociales y cumpliste con la fecha de entrega. A continuación te comparto mis comentarios para algunas secciones, con mayor detalle.

Estructura del repositorio

La estructura es adecuada y seguiste las recomendaciones del paper Good Enough Practices in Scientific Computing.

En las carpetas src y data incluiste un README file con la descripción de la carpeta, sin embargo, en éstas carpetas hay varios archivos por lo que sería recomendable que en los archivos README se comentara cual es el objetivo de los archivos.

En el archivo README.md en la carpeta principal del repositorio se incluyó la descripción general del proyecto, un breve resumen de resultados y la ubicación del EDA en Jupyter notebook.

Análisis EDA

Corrí el código de tu notebook para buscar replicar tus resultados y estos son los comentarios que fueron surgiendo al correr el código:

Para que las imágenes de Altair se vean en GitHub te recomiendo incorporar el siguiente código después de importar la libraría Altair:

# Llamar Altair y añadir render mimetype para ver las gráficas en GitHub
import altair as alt
alt.renderers.enable('mimetype')

Me dio mucho gusto que hayas utilizado la librería de altair. Para la gráfica con el nombre “Gráfico de Dispersión” en el que utilizas mark_circle te recomendaría más utilizar un mapa de calor, es decir, el tipo de gráfico mark_rect. Entonces quedaría de la siguiente manera:

image

Para la gráfica de boxplots te recomendaría que cada gráfica fuera menos ancha, por ejemplo, cambiar el tamaño de width=400 a width=150. Para poder hacer comparable los boxplots de las tres variables, dados que tienes las gráficas una al lado de otra, podrías decir que compartieran el mismo eje Y:

boxplots.resolve_scale(y = 'shared')

Para hacer interactiva la última gráfica, en la base podrías añadir el código de tooltip=['Media_pct_total', 'Categoría'], por lo que quedaría de la siguiente manera:

base = alt.Chart(source).encode(
    alt.Theta("Media_pct_total:Q", stack=True),
    alt.Radius("Media_pct_total:Q").scale(type="sqrt", zero=True, rangeMin=20),
    color="Categoría:N",
    tooltip=['Media_pct_total', 'Categoría']
)

Me parece importante que se explique al menos un poco acerca de las observaciones que tuviste sobre las gráficas, ya sea después de cada una de éstas gráficas o en una sección con comentarios adicionales sobre tu análisis.

Además, me pareció interesante que hayas creado el archivo create_dummy_data.ipynb para generar la información necesaria para el análisis EDA sin comprometer información confidencial de alguna empresa.

Comentarios finales

Me pareció interesante el análisis utilizando diferencia entre fechas, la estructura del repositorio es adecuada, el análisis me pareció bueno y me parece que hiciste un buen esfuerzo utilizando la librería de Altair para graficar parte de la información. ¡Muy buen esfuerzo, muchas felicidades!

Saludos, Víctor Cuspinera

vcuspinera commented 11 months ago

Link proyecto

Divulgación por Facebook