Open macagamerre opened 3 years ago
Hola, ¡precisamente! si tienes los dataset con las clases balanceadas quitarás ciertos sesgos que pueden generar ruído en el dataset y posteriormente en la clasificación. Entonces, para mejores resultados puedes hacer la tarea de balancear las clases. No se va a penalizar si no hiciste un balanceo. Pero siempre es buena práctica intentar hacerlo.
Perfecto, gracias!
Hola, tengo una duda sobre cómo dividir los set de entrenamiento, test y validación. Lo que hice fue hacer un gran data frame con todos los textos limpios de las noticias y su label respectivo. Luego estoy seleccionando con .sample() un porcentaje de noticias para entrenamiento, otro % para test y otro % para validación. Entonces, estoy seleccionando noticias random para entrenar el modelo. ¿Está bien o es preferible que en ese set sean 50% true y 50% fake news? Porque me imagino que el rendimiento será distinto.
Gracias desde ya!