Ironhack-Data-Madrid-Abril-2023 / w4-project_ETL

https://github.com
0 stars 1 forks source link

[Augusto Abad Varela](3_IRONHACK_ETL) #11

Closed gusavato closed 1 year ago

gusavato commented 1 year ago

https://github.com/gusavato/3_IRONHACK_ETL

CharlyKill7 commented 1 year ago

Muy buen proyecto, Gus!

Me gustaría ir comentándote los fallos o posibles mejoras, punto por punto como suelo hacer, pero la verdad es que cuesta encontrar algo que añadir. El repo está muy bien estructurado, con las carpetas correspondientes e incluso informas de la estructura en el readme. Por rizar el rizo, y ya que tienes los pasos del proceso y cada notebook corresponde a uno de ellos, podrías intentar que, además de a la web correspondiente, en cada paso puedas clickar y redirigir al visitante directamente al notebook donde realizas ese paso. Luis lo hizo en el proyecto de SQL, así que seguramente en su readme puedas encontrar el HTML que usó para lograrlo.

Por otro lado, la extracción está muy bien ejecutada. Donde podrías haber hecho un scrappeo sencillo de una tabla para una columna extra, has preferido usar selenium para recorrer un montón de URLs distintas. Eso y un .csv y ya lo tenías. Sin embargo, has optado por conectarte a la API de Spotify, consiguiendo enriquecer tus datos tanto tus datos como tu aprendizaje. Las decisiones que tomas sobre borrar ciertas filas son correctas en el punto en el que estás, por lo que te felicito por aparcar tu perfeccionisto y abrazar lo práctico cuando la situación lo requiere.

En general, excelente proyecto, Gus. Con ganas de ver lo que traes en el futuro!

CharlyKill7 commented 1 year ago

Muy buen proyecto, Gus!

Me gustaría ir comentándote los fallos o posibles mejoras, punto por punto como suelo hacer, pero la verdad es que cuesta encontrar algo que añadir. El repo está muy bien estructurado, con las carpetas correspondientes e incluso informas de la estructura en el readme. Por rizar el rizo, y ya que tienes los pasos del proceso y cada notebook corresponde a uno de ellos, podrías intentar que, además de a la web correspondiente, en cada paso puedas clickar y redirigir al visitante directamente al notebook donde realizas ese paso. Luis lo hizo en el proyecto de SQL, así que seguramente en su readme puedas encontrar el HTML que usó para lograrlo.

Por otro lado, la extracción está muy bien ejecutada. Donde podrías haber hecho un scrappeo sencillo de una tabla para una columna extra, has preferido usar selenium para recorrer un montón de URLs distintas. Eso y un .csv y ya lo tenías. Sin embargo, has optado por conectarte a la API de Spotify, consiguiendo enriquecer tanto tus datos como tu aprendizaje. Las decisiones que tomas sobre borrar ciertas filas son correctas en el punto en el que estás, por lo que te felicito por aparcar tu perfeccionismo y abrazar lo práctico cuando la situación lo requiere.

En general, excelente proyecto, Gus. Con ganas de ver lo que traes en el futuro!