IIC2613 / Syllabus

Repositorio oficial Inteligencia Artificial 2020-2
6 stars 1 forks source link

Tarea 3: Fraccion de los datos #88

Open Alonsinho1 opened 3 years ago

Alonsinho1 commented 3 years ago

Hola esta bien si hacemos algo de este estilo con el fin de usar una porcion de los datos?

df = pd.concat([db_true, db_false]) df = db.sample(frac=0.75).reset_index(drop=True)

En la ayudantia dijeron que podemos solamente utilizar una fraccion de los datos para priorizar el tiempo, pero quiero saber si esta implementacion esta bien? podria incluso hacer frac = 0.5?

Juan-AAS commented 3 years ago

sí, eso está bien para fraccionar los datos. Ojo que ahora tu df será el 0.75*df definido en la concatenación. Ahora mi pregunta es: ¿quieres utilizar solo el 75% del dataset para hacer toda la tarea? o ¿esa porción será para entrenar?

Alonsinho1 commented 3 years ago

Para poder hacer todo mas eficiente me gustaria usar es 75% para toda la tarea. luego de ese 75% uso el 80% para entrenar

Juan-AAS commented 3 years ago

Mira, puedes usar menos datos, pero que esa selección sea con un argumento, es decir, por ejemplo; decidiste quitar aquellos textos con pocas palabras ya que puede que te generern ruido, etc, etc. Si solo vas a ocupar una fracción por que sí, de forma aleatoria, creo que no es un buen ejercicio. Esto porque puede que quites textos largos donde el vocabulario sea bueno y te pueda ayudar a mejorar la codificación.