Exploratorio-DCC-PUC / Syllabus-2018-2

Página principal del curso IIC1005 - Computación: Ciencia y Tecnología del Mundo Digital en su versión 2018-2.
9 stars 13 forks source link

Clustering #91

Closed iraraya closed 6 years ago

iraraya commented 6 years ago

Hola! No me queda claro en la parte 4 si el gráfico de clustering debe ser 2D o 3D, considerando que dice que se incluya la calidad en los gráficos. Además, quería saber si se debe hacer con los datos simplemente reducidos a dos dimensiones o además de eso, escalados. Gracias!

Mdelaf commented 6 years ago

Primero debes usar PCA para llevar tus datos a 2D. Luego debes graficar esos datos en el plano y mostrarlos por color según su etiqueta. Por último debes aplicar los algoritmos de clustering sobre los mismos datos (en 2D) y ver si los clusters que te encuentra se corresponden más o menos a los datos según sus etiquetas.

En la ayudantía 5 se hizo un ejercicio muy similar, puedes revisarlo ahí.

NelsonIMA commented 6 years ago

Una consulta, solo para confirmar, con etiqueta te refieres a la calidad cierto?

Gracias de antemano :)

Mdelaf commented 6 years ago

Si!

NelsonIMA commented 6 years ago

Gracias!

Otra consulta, es normal (o va por buen camino) que al visualizar la transformación por medio de Altair se vea así?

captura de pantalla 2018-10-15 a la s 13 06 05

Mdelaf commented 6 years ago

Si hiciste todo bien y llegaste a ese resultado, es posible que al hacer la reducción de dimensionalidad con PCA se esté perdiendo mucha información de los datos, y por lo tanto en la representación 2D no se vea bien la separación de las clases.

Lo que más importa es la explicación que den de los resultados, y digan por qué podría estar viéndose así.

iraraya commented 6 years ago

Una última pregunta. ¿Cuál es el parámetro que hay que variar en meanshift? Ya que al parecer, el número de clusters los calcula solo, y no encuentro otra cosa para manipular Gracias!

Mdelaf commented 6 years ago

En la documentación de scikit-learn puedes ver los parámetros que recibe Meanshift, escoge uno que sea relevante y justifica en las preguntas qué significa ese parámetro, por qué es relevante, y como afecta modificarlo para la obtención de los resultados.

NelsonIMA commented 6 years ago

Gracias por la respuesta :)

Otra consulta, para graficar los clustering es obligatorio usar Altair?, ya que lo menciona para la parte de la transformación, no explicitamente para los Clusters captura de pantalla 2018-10-16 a la s 11 00 10

Mdelaf commented 6 years ago

La idea es que se haga todo con Altair.

Saludos.

fnquinteros commented 6 years ago

Hola, investigando un poco me encontré con que el algoritmo MeanShift es "no paramétrico", pero que necesita recibir un ancho de banda. No acabo de entender bien qué es el ancho de banda, pero sklearn lo estima por sí solo y, a mi parecer, no tiene mucho sentido estarlo cambiando porque sí. Es esta una justificación válida para no variar ningún parámetro al usar MeanShift?