IIC2433-2017-2 / T02

Repositorio para realizar consultas sobre la tarea 1
1 stars 0 forks source link

Clasificación final hecha por el RandomForest #16

Open djcontador opened 6 years ago

djcontador commented 6 years ago

Hola!

Al momento de obtener las predicciones para cada árbol de decisión, no estoy segura si considerar la moda de las clases o la clase con mayor probabilidad promedio entre todas las clases. Si se considera la moda, que sucede cuando hay más de una? O sería mejor siempre usar la probabilidad promedio para la clasificación? Saludos!

bcsaldias commented 6 years ago

Hola!

La con mayor probabilidad debería ser la moda, verdad? porque para sacar probabilidad se toma la frecuencia y se hace relativa.

¿Cuál es la "probabilidad promedio"?

Saludos

El 14 de octubre de 2017, 23:47, Daniela Contador Zanforlin< notifications@github.com> escribió:

Hola!

Al momento de obtener las predicciones para cada árbol de decisión, no estoy segura si considerar la moda de las clases o la clase con mayor probabilidad promedio entre todas las clases. Si se considera la moda, que sucede cuando hay más de una? O sería mejor siempre usar la probabilidad promedio para la clasificación? Saludos!

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/IIC2433-2017-2/T02/issues/16, or mute the thread https://github.com/notifications/unsubscribe-auth/AKHLfqkGEQ7uI-27mfXj-d5c2Jxied2Mks5ssXJDgaJpZM4P5m1Y .

djcontador commented 6 years ago

Toda la razón! Si, en realidad se debe analizar considerando siempre el output como la probabilidad de pertenecer a la clase. Antes lo estaba pensando como discretizarlo (pertenece a la clase si su probabilidad es mayor a 0.5) y obtener su moda, pero ahora me doy cuenta que eso no es lo correcto. Muchas gracias!! :D

jgmontoya commented 6 years ago

Hola,

Tengo una duda relacionada.

Entiendo que para la clasificación que debe retornar predict(X) lo hacemos con la moda de las clasificaciones hechas por los árboles del bosque. Mi duda es respecto a predict_proba(X): asignamos la probabilidad como la proporción de "votos" de cada árbol hacia una clase / total de árboles (es decir que cada árbol vota una vez por la clase que le daría a X) o bien se consideran las probabilidades de cada clase dada por cada árbol (es decir que si en un árbol se llega a una hoja con un grupo no homogéneo de clases se asigne una probabilidad basada en la proporción de las distintas clases).

Saludos!

bcsaldias commented 6 years ago

Podrías hacerlo de las dos formas. Pero la forma estándar es un voto por árbol, así que déjalo así.

Saludos!

El 15 de octubre de 2017, 16:00, Javier G. Montoya S.< notifications@github.com> escribió:

Hola,

Tengo una duda relacionada.

Entiendo que para la clasificación que debe retornar predict(X) lo hacemos con la moda de las clasificaciones hechas por los árboles del bosque. Mi duda es respecto a predict_proba(X): asignamos la probabilidad como la proporción de "votos" de cada árbol hacia una clase / total de árboles (es decir que cada árbol vota una vez por la clase que le daría a X) o bien se consideran las probabilidades de cada clase dada por cada árbol (es decir que si en un árbol se llega a una hoja con un grupo no homogéneo de clases se asigne una probabilidad basada en la proporción de las distintas clases).

Saludos!

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/IIC2433-2017-2/T02/issues/16#issuecomment-336733273, or mute the thread https://github.com/notifications/unsubscribe-auth/AKHLfqKyzpOOpHSobtcFwGtnvHeTv453ks5sslZSgaJpZM4P5m1Y .

jgmontoya commented 6 years ago

Oka, y si hay empates elegimos cualquiera?

bcsaldias commented 6 years ago

Hablamos de eso en clases o no? No deberían ser número par. Pero decídelo tú y explica por qué elegiste al azar o etc.

Recuerda que eso puede traer complicaciones.

Saludos!!

El 17 oct. 2017 22:47, "Javier G. Montoya S." notifications@github.com escribió:

Oka, y si hay empates elegimos cualquiera?

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/IIC2433-2017-2/T02/issues/16#issuecomment-337436399, or mute the thread https://github.com/notifications/unsubscribe-auth/AKHLfg-mGyuegC8QO2UGMCTG2qy8whEcks5stVirgaJpZM4P5m1Y .

jgmontoya commented 6 years ago

Creo que no entiendo bien ¿Qué es lo que no debiera ser número par?

Creo que eso lo dijimos en relación a KNN pero tampoco me quedó muy claro en ese caso por qué el que sean una cantidad impar de vecinos evita que hayan empates. Depende del número de clases también o no?

bcsaldias commented 6 years ago

Estaba pensando en 2 clases.

Cuando hay más de un número con la misma frecuencia hay más de una moda (puedes poner una regla de decisión como un aleatorio pesado por la probabilidad general de cada clase).

Cuando todos los valores son iguales no hay moda.

Espero resuelva tu pregunta.

Saludos

El 17 oct. 2017 23:11, "Javier G. Montoya S." notifications@github.com escribió:

Creo que no entiendo bien ¿Qué es lo que no debiera ser número par?

Creo que eso lo dijimos en relación a KNN pero tampoco me quedó muy claro en ese caso por qué el que sean una cantidad impar de vecinos evita que hayan empates. Depende del número de clases también o no?

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/IIC2433-2017-2/T02/issues/16#issuecomment-337439736, or mute the thread https://github.com/notifications/unsubscribe-auth/AKHLfkh-Uj9arTBiPacgQVh8NV2N6veUks5stV5AgaJpZM4P5m1Y .