Open Nicolas413 opened 5 months ago
Hay una confusion: lo que recibes es la consulta, los datos son los que ya tienes en la rdd! A, L y M nunca van a ir a la rdd, hacen las veces de la consulta de triangulo. Si quieres asume que A, L y M son listas en python, A y M de una dimension, M de tres. o Numpy arrays, lo que prefieras (posiblemente vas a accederlos de forma que cualquiera de los dos funcione).
Tengo una duda, ¿para realizar el punto 4 en la imagen, tenemos que usar los datos que nosotros extraemos en el punto 1, o se van a usar datos externos a los que convertimos a un RDD? dado que dice que hay que hacer un programa que reciba un patron, pero el patrón/subgrafo solo tiene variables.
Si nos dan lo que dice el Punto 3, que son los arreglos A que son variables, L que son relaciones y la matriz M del tamaño del producto cartesiano entre ellas, en este sentido ¿debemos hacer ese producto nosotros para determinar cual tupla pertenece a la matriz y luego usar el PySpark? o se deben usar los datos que se tienen en el Punto 1.
Tambien tengo la duda, de en que formato se va a hacer entrega de A, L y M, pues sin conocer el formato en que lo van a entregar para evaluar, es dificil hacer una función que extraiga los datos.