Open Alonsinho1 opened 3 years ago
sí, eso está bien para fraccionar los datos. Ojo que ahora tu df
será el 0.75*df
definido en la concatenación. Ahora mi pregunta es: ¿quieres utilizar solo el 75% del dataset para hacer toda la tarea? o ¿esa porción será para entrenar?
Para poder hacer todo mas eficiente me gustaria usar es 75% para toda la tarea. luego de ese 75% uso el 80% para entrenar
Mira, puedes usar menos datos, pero que esa selección sea con un argumento, es decir, por ejemplo; decidiste quitar aquellos textos con pocas palabras ya que puede que te generern ruido, etc, etc. Si solo vas a ocupar una fracción por que sí, de forma aleatoria, creo que no es un buen ejercicio. Esto porque puede que quites textos largos donde el vocabulario sea bueno y te pueda ayudar a mejorar la codificación.
Hola esta bien si hacemos algo de este estilo con el fin de usar una porcion de los datos?
df = pd.concat([db_true, db_false])
df = db.sample(frac=0.75).reset_index(drop=True)
En la ayudantia dijeron que podemos solamente utilizar una fraccion de los datos para priorizar el tiempo, pero quiero saber si esta implementacion esta bien? podria incluso hacer frac = 0.5?