División de data - Githubissues

macagamerre commented 3 years ago

Hola, tengo una duda sobre cómo dividir los set de entrenamiento, test y validación. Lo que hice fue hacer un gran data frame con todos los textos limpios de las noticias y su label respectivo. Luego estoy seleccionando con .sample() un porcentaje de noticias para entrenamiento, otro % para test y otro % para validación. Entonces, estoy seleccionando noticias random para entrenar el modelo. ¿Está bien o es preferible que en ese set sean 50% true y 50% fake news? Porque me imagino que el rendimiento será distinto.

Gracias desde ya!

Juan-AAS commented 3 years ago

Hola, ¡precisamente! si tienes los dataset con las clases balanceadas quitarás ciertos sesgos que pueden generar ruído en el dataset y posteriormente en la clasificación. Entonces, para mejores resultados puedes hacer la tarea de balancear las clases. No se va a penalizar si no hiciste un balanceo. Pero siempre es buena práctica intentar hacerlo.

macagamerre commented 3 years ago

Perfecto, gracias!

IIC2613 / Syllabus

División de data #91