IIC2613 / Syllabus-2019-2

17 stars 3 forks source link

Actividad 1 T3 #31

Closed stmorales closed 4 years ago

stmorales commented 4 years ago

Se pide hacer un histograma de las palabras más usadas del dataset. Antes nos dicen que hay que dividir los datos en training, validation y test. Me surgen las siguientes preguntas:

  1. Se hace con la totalidad de los datos o con el set de training?
  2. Es necesario trabajar con las palabras ya vectorizadas o se puede hacer esta parte sin vectorizar.

Gracias

alainray commented 4 years ago

Hola!

  1. Te recomiendo hacerlo con el set de datos completo.
  2. Lo puedes hacer como tú quieras, lo importante es que al final haya un histograma en que se pueda ver cuales son las palabras más populares y cuáles menos.

Saludos,

Alain

stmorales commented 4 years ago

Gracias!