IIC2115 / Syllabus-2021-1

Syllabus del curso IIC2115 - Programación como Herramienta para la Ingeniería 2021/I
9 stars 47 forks source link

L1b misión 1 #68

Closed arantzasalazar closed 3 years ago

arantzasalazar commented 3 years ago

En la parte de web scrapping cuantas inserciones hay que hacer para que esté bien? La idea es meterse a una página distinta para cada, por ejemplo, actor? o se espera que lo hagamos de otra forma mejor? Gracias

manalvarezc commented 3 years ago

Me sumo a esta duda, ya que cada consulta a una página en web scraping, por conexión u otra causa, se está tardando alrededor de 1 segundo, y al aumentar el numero de páginas consultadas, en algún momento se cae el programa (en mi caso el vscode). Por eso, ¿cuál es el criterio para el número de registros complementados? ¿Y en la evaluación afecta el tiempo que se demore en correr todo ese programa si es que complementamos un numero grande de registros, por el alto tiempo dado al principio? Gracias

arantzasalazar commented 3 years ago

Si, me pasa exactamente lo mismo. Esa es mi duda más detallada!

pcseisdedos commented 3 years ago

A priori no está definido un mínimo, la idea es que puedan poblar de la mejor forma posible la tabla dentro de lo razonable. Lo que mencionan de hacer una request por registro no me parece un buen enfoque, yo buscaría información agregada primero.

Saludos, Pablo 😁👍

arantzasalazar commented 3 years ago

A qué te refieres con información agregada? Gracias!

pcseisdedos commented 3 years ago

Me refiero a que mi primer enfoque sería hacer requests a nivel de categoría (por ejemplo por género o por año), no a nivel de película, quizás en una segunda etapa puedas buscar a nivel de película propiamente tal, pero no sería mi primera opción.

Saludos, Pablo 😁👍

matisteffens commented 3 years ago

Que pasa si insertar los datos obtenidos en la base de datos se demora mucho?

pcseisdedos commented 3 years ago

Es verdad que la base de datos es medianamente grande para poblarla completamente, y que incluso con un buen enfoque esto podría tardar más de lo que nos gustaría. Para probar tu código te recomiendo ocupar un subconjunto de la base de datos original, de modo que puedas verificar que funciona correctamente sin tener que esperar mucho tiempo para obtener los resultados.

Saludos, Pablo 😁👍