Ironhack-Data-Madrid-Abril-2023 / w4-project_ETL

https://github.com
0 stars 1 forks source link

[Carlos Clemente][Proyect ETL] #20

Open Carlosclementegarcia opened 1 year ago

Carlosclementegarcia commented 1 year ago

https://github.com/Carlosclementegarcia/PROJECT_ETL

CharlyKill7 commented 1 year ago

Un proyecto muy justito, Carlos.

He estado mirando los notebooks y, aunque sé que te has esforzado, las tablas que sacas no están optimizadas, tanto por el formato inicial del .csv como por falta de limpieza. Como puntos positivos, has podido conectarte a la API de DomainsDB y usado Selenium para automatizar el proceso de descarga. Además, el repo está cada vez mejor, aunque te recomiendo guardar los .csv en una carpeta aparte llamada 'data'.

Sin embargo, no has conseguido juntar todos los datos en una sola tabla enriquecida, ni en DataFrame de pandas ni en una base de datos MySQL. Si hubieras intentado trabajar los .csv con pandas antes de intentar importarlos, te habrías dado cuenta de la falta de estructura que tenían. Habrías podido buscar otro archivo alternativo, o intentar, mediante limpieza, conseguir lo que querías de ese DF aunque terminase teniendo pocas filas.

Por todo ello, mi recomendación para el futuro es la siguiente: intenta pararte a pensar con perspectiva lo que se te pide, lo que quieres lograr, lo que vas teniendo a cada paso del proceso y lo que todavía necesitas. Ojalá me esté expresando bien; lo que pretendo decir es que en la cabeza hay que conectarlo todo y no solamente atacar cada parte de forma individual. No es simplemente paso 1 y luego paso 2 y luego paso 3. Hay que entender el conjunto. Visualizar, en el momento de estar buscando los datos, cómo van a cuadrar con las otras fuentes que tienes vistas en un futuro DF. O si podrás hacer facilmente un merge o no, antes de meterte en el notebook, es una habilidad que te recomiendo adquirir porque te ahorrará mucho trabajo en vano. El esfuerzo ya lo tienes. Ahora, intenta acompañarlo con una perspectiva más amplia.

¡Ánimo y a seguir!

Carlosclementegarcia commented 1 year ago

Buenas tardes Carlos, Agradezco mucho tus comentarios. Son bastantes descriptivos de lo que debo llegar a desarrollar. Seguiré esforzándome para mejorar.

Gracias y saludos