Se pide hacer un histograma de las palabras más usadas del dataset. Antes nos dicen que hay que dividir los datos en training, validation y test. Me surgen las siguientes preguntas:
Se hace con la totalidad de los datos o con el set de training?
Es necesario trabajar con las palabras ya vectorizadas o se puede hacer esta parte sin vectorizar.
Te recomiendo hacerlo con el set de datos completo.
Lo puedes hacer como tú quieras, lo importante es que al final haya un histograma en que se pueda ver cuales son las palabras más populares y cuáles menos.
Se pide hacer un histograma de las palabras más usadas del dataset. Antes nos dicen que hay que dividir los datos en training, validation y test. Me surgen las siguientes preguntas:
Gracias