jorgeherrerar / Robo-de-Autos-EDA

Analisis exploratorio de datos del robo de autos en Jalisco.
MIT License
0 stars 0 forks source link

Comentarios sobre proyecto EDA #2

Open vcuspinera opened 10 months ago

vcuspinera commented 10 months ago

Hola, Jorge. De forma global veo bien tu proyecto: el repositorio del proyecto tiene la estructura adecuada, realizaste el EDA en Jupyter notebook, compartiste el link del proyecto en el repositorio del curso, agregaste un Issue con pendientes, divulgaste tu proyecto a través de la red social ‘X’ y cumpliste con la fecha de entrega. A continuación te comparto mis comentarios para algunas secciones, con mayor detalle.

Estructura del repositorio

La estructura es adecuada y seguiste las recomendaciones del paper Good Enough Practices in Scientific Computing.

En la estructura de tu proyecto me gustó que, aunque no incluyes la data completa por cuestión de tamaño, lo comentaste y compartiste la liga de la fuente de información para que cualquier persona interesada pueda bajar la información completa y replicar el análisis.

En los README de las carpetas doc, results y src sólo incluye el título de las carpetas que describe de forma breve qué es cada carpeta, ahí te recomendaría que se pusiera una breve descripción de lo que tiene y tal vez una explicación de los archivos, al menos de los más relevantes. En el archivo README.md en la carpeta principal del repositorio se incluyó la descripción general del proyecto; sin embargo, faltó un breve resumen de resultados y el link al EDA en Jupyter notebook. Por otro lado, agradezco que incluyeras al final la liga donde divulgaste el proyecto.

Por último, encontré algunos errores de ortografía, principalmente en el archivo de Resultados.pdf de la carpeta resultados, como la palabra “fuera” que debería ser “fueran” en el primer viñeta, la palabra “mas” sin acento en la segunda viñeta y los nombres de los meses con mayúscula cuando deberían empezar con minúscula.

Análisis EDA

Corrí el código de tu notebook para buscar replicar tus resultados y estos son los comentarios que fueron surgiendo a lo largo de correr el código:

Al leer los datos utilizando la ruta relativa, tienes el siguiente código, al cual le falta un de punto antes /data para que consulte al base de datos en la carpeta data:

df = pd.read_csv('./data/Jalisco-Delitos-septiembre-2021.csv', encoding='latin-1')

Una alternativa para no tener que bajar la información si esté en la web, sobre todo si es muy pesada, es mandarla a llamar desde la URL, por lo que hubieras podido utilizar el siguiente código:

df = pd.read_csv('https://iieg.gob.mx/ns/wp-content/uploads/2021/10/Jalisco-Delitos-septiembre-2021.csv', encoding='latin-1')

Cuando estas revisando la información de forma general cuentas el número de municipios distintos usando la variable de “Municipio”, pero mi recomendación es que uses la clave del INEGI para revisarlo o, al menos, verificar que sí es correcto. Esto te lo comento porque puede darse el caso que existan dos municipios con el mismo nombre pero ubicados en entidades federativas distintas.

df["Cve..Municipio"].nunique()

Cuando creas el nuevo dataframe de vehículos robados, puedes resetear el índice para que sea más fácil usar el dataframe

df_vehiculos = df[df['Subtipo.de.delito'] == 'Robo de vehículo automotor'].reset_index(drop = True)

Por si te quiere familiarizar con Altair, a manera de ejemplo hice la gráfica

# importar librería de Altair
import altair as alt

# obetenr suma de carpetas por año para facilitar la graficación 
source = df_vehiculos.groupby(by=['Año']).sum()[['Carpetas']].reset_index()
source

# gráfica base
base = alt.Chart(source).encode(
    alt.X("Año:O"),
    alt.Y("Carpetas:Q"),
    alt.Color("Año:N")
)

# barras de la gráfica
bar = base.mark_bar().properties(title = 'Total de Vehiculos Robados por Año',
                                 width=300)

# texto de la gráfica
text = base.mark_text(baseline='bottom').encode(
    alt.Text('Carpetas:Q', format=",.0f"))

# poner barras y texto de la gráfica juntos
bar + text
image

Finalmente, me parece importante que se explique al menos un poco acerca de las observaciones que tuviste sobre las gráficas, ya sea después de cada una de éstas gráficas o en una sección con comentarios adicionales o finales sobre tu análisis.

Comentarios finales

Me pareció bien que analizaras una base de datos relacionada con tu tema de tesis, la estructura del repositorio es adecuada y el análisis y visualizaciones son me parecieron muy buenos. ¡Muy buen esfuerzo, muchas felicidades!

Saludos, Víctor Cuspinera

vcuspinera commented 10 months ago

Link proyecto

https://github.com/jorgeherrerar/Robo-de-Autos-EDA

Divulgación por X (antes Twitter)

https://twitter.com/herreraj0rge/status/1713633481488539781?s=20

jorgeherrerar commented 10 months ago

Muchas gracias por toda la retroalimentación Mto. Victor. Es de ayuda saber que es lo que me falta mejorar y creo que me empieza a gustar la liberaría de Altair para hacer las gráficas.

Saludos

Jorge

El mié, 18 oct 2023 a las 12:08, Victor Cuspinera-Contreras (< @.***>) escribió:

Link proyecto: https://github.com/jorgeherrerar/Robo-de-Autos-EDA

Divulgación por Twitter: https://twitter.com/herreraj0rge/status/1713633481488539781?s=20

— Reply to this email directly, view it on GitHub https://github.com/jorgeherrerar/Robo-de-Autos-EDA/issues/2#issuecomment-1769073545, or unsubscribe https://github.com/notifications/unsubscribe-auth/A2E5N2NI5MXCRJ42T6DPRDDYAALILAVCNFSM6AAAAAA6F5ZYECVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTONRZGA3TGNJUGU . You are receiving this because you are subscribed to this thread.Message ID: @.***>