IIC2433-2017-2 / T02

Repositorio para realizar consultas sobre la tarea 1
1 stars 0 forks source link

Duda training y testing, y configuración #23

Open fariquelme opened 6 years ago

fariquelme commented 6 years ago

Tengo una duda con respecto al testing del árbol. Viendo los issues, me quede con la impresión de que no es necesario dividir el dataset en train/test dado que cada árbol ya viene con su error del bagging.

Está bien esto ?, o igual es necesario dividir en train/test y hacer bagging del training set y además testear con el testing set?.

En cuanto a la 'configuración interesante', a que se refiere ? alguna otra forma de combinar árboles de decision que no sea promediando votos, ó otra forma de entrenar los árboles?

Saludos.

jgmontoya commented 6 years ago

Respecto a la 'configuración interesante' yo lo interpreté como una configuración de los parámetros que recibe RandomForest para hacer bosques diferentes (por ejemplo el número de árboles, la regla de decisión, número de features, etc..). Es decir no creo que se refiera a modificar el algoritmo en sí.

Geeermy commented 6 years ago

Yo con 'configuración interesante' había entendido derechamente usar otro clasificador y comparar :upside_down_face: aún no veo esa parte, así que sería bueno aclararlo. No sé si tendrá sentido hacerlo con otra configuración de parámetros, ya que en el fondo ese análisis está implícito en la búsqueda de parámetros óptima, ¿o no? 👀

bcsaldias commented 6 years ago

Parámetros.

Configuración: configuración de los parámetros.

El 24 oct. 2017 21:18, "Geeermy" notifications@github.com escribió:

Yo con 'configuración interesante' había entendido derechamente usar otro clasificador y comparar 🙃 aún no veo esa parte, así que sería bueno aclararlo. No sé si tendrá sentido hacerlo con otra configuración de parámetros, ya que en el fondo ese análisis está implícito en la búsqueda de parámetros óptima, ¿o no? 👀

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/IIC2433-2017-2/T02/issues/23#issuecomment-339174494, or mute the thread https://github.com/notifications/unsubscribe-auth/AKHLfgiCkJq8kab8Pc-PawitglYdwBHPks5svn40gaJpZM4QFQfJ .

bcsaldias commented 6 years ago

Al encontrar el óptimo estás evaluando sobre el set de validación? Eso está ol.

Porque el oob final es el del testing, los datos que no están en un arbol dado.

Puede ser interesante por michas razones: como que predice algunas clases mejor, etx.

El 24 oct. 2017 21:18, "Geeermy" notifications@github.com escribió:

Yo con 'configuración interesante' había entendido derechamente usar otro clasificador y comparar 🙃 aún no veo esa parte, así que sería bueno aclararlo. No sé si tendrá sentido hacerlo con otra configuración de parámetros, ya que en el fondo ese análisis está implícito en la búsqueda de parámetros óptima, ¿o no? 👀

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/IIC2433-2017-2/T02/issues/23#issuecomment-339174494, or mute the thread https://github.com/notifications/unsubscribe-auth/AKHLfgiCkJq8kab8Pc-PawitglYdwBHPks5svn40gaJpZM4QFQfJ .

fariquelme commented 6 years ago

Has perfecto, me estaba complicando demás con lo de configuración interesante entonces.

Para el test y train lo que hice fue hacer holdout solamente, sin set de validación y entrenar con un set (en el que hago el bagging y saco el OOBE) y con el otro sólo test el performance el RandomForest entero.

Esta bien así cierto ?