IIC2440 / Syllabus-2023-1

22 stars 2 forks source link

Demostración de que el código es escalable #19

Open matifuentes2 opened 1 year ago

matifuentes2 commented 1 year ago

Hola, tal vez hay algo que no estoy logrando ver pero no me hace sentido que correr el código en colab con un grafo grande sea una demostración de que el código es escalable. Hasta donde entiendo al usar pyspark estamos 'organizando' los datos y generando instrucciones para un entorno distribuido, pero como en la práctica no estamos conectados a un entorno distribuido estamos corriendo todo en una única máquina, y todo el trabajo hecho en spark no hace más que sumarle overhead a la tarea.

alanezz commented 1 year ago

Hola,

Más que correr experimentos a gran escala, la idea es que muestren que solo usan las primitivas de Spark, que como vimos en clases efectivamente corren bien en un entorno distribuido. Lo que no queremos es que recorran el RDD con un for y calculen todo a la mala, sino que su código sea escalable en caso de que los datos no caben en un computador.

Al final es warning para que no intenten hackear la tarea, y usen las primitivas de Spark no más.