Closed iraraya closed 6 years ago
Primero debes usar PCA para llevar tus datos a 2D. Luego debes graficar esos datos en el plano y mostrarlos por color según su etiqueta. Por último debes aplicar los algoritmos de clustering sobre los mismos datos (en 2D) y ver si los clusters que te encuentra se corresponden más o menos a los datos según sus etiquetas.
En la ayudantía 5 se hizo un ejercicio muy similar, puedes revisarlo ahí.
Una consulta, solo para confirmar, con etiqueta te refieres a la calidad cierto?
Gracias de antemano :)
Si!
Gracias!
Otra consulta, es normal (o va por buen camino) que al visualizar la transformación por medio de Altair se vea así?
Si hiciste todo bien y llegaste a ese resultado, es posible que al hacer la reducción de dimensionalidad con PCA se esté perdiendo mucha información de los datos, y por lo tanto en la representación 2D no se vea bien la separación de las clases.
Lo que más importa es la explicación que den de los resultados, y digan por qué podría estar viéndose así.
Una última pregunta. ¿Cuál es el parámetro que hay que variar en meanshift? Ya que al parecer, el número de clusters los calcula solo, y no encuentro otra cosa para manipular Gracias!
En la documentación de scikit-learn
puedes ver los parámetros que recibe Meanshift, escoge uno que sea relevante y justifica en las preguntas qué significa ese parámetro, por qué es relevante, y como afecta modificarlo para la obtención de los resultados.
Gracias por la respuesta :)
Otra consulta, para graficar los clustering es obligatorio usar Altair?, ya que lo menciona para la parte de la transformación, no explicitamente para los Clusters
La idea es que se haga todo con Altair.
Saludos.
Hola, investigando un poco me encontré con que el algoritmo MeanShift es "no paramétrico", pero que necesita recibir un ancho de banda. No acabo de entender bien qué es el ancho de banda, pero sklearn lo estima por sí solo y, a mi parecer, no tiene mucho sentido estarlo cambiando porque sí. Es esta una justificación válida para no variar ningún parámetro al usar MeanShift?
Hola! No me queda claro en la parte 4 si el gráfico de clustering debe ser 2D o 3D, considerando que dice que se incluya la calidad en los gráficos. Además, quería saber si se debe hacer con los datos simplemente reducidos a dos dimensiones o además de eso, escalados. Gracias!