IIC2613-Inteligencia-Artificial-2023-2 / Syllabus

Syllabus oficial del curso para su rendición 2023-2.
MIT License
29 stars 0 forks source link

Duda cantidad de datos vectorización #63

Closed juanelsch closed 11 months ago

juanelsch commented 1 year ago

En la pregunta 1.2.2 dice "Finalmente, te recomendamos utilizar 5000 datos de cada clase, seleccionados de forma aleatoria." Esto se refiere para la parte de vectorización? osea que debemos usar 10.000 datos para cada vectorización, los cuales debemos almacenar en un dataframe? o para la parte de vectorización se deben utilizar todos los datos del .csv?

dfloreaa commented 1 year ago

Hola, estamos permitiendo utilizar solamente 5000 datos de cada clase para ese ejercicio también, aunque de ser posible utiliza el dataset completo a modo de obtener mejores resultados más adelante.

De todos modos, la vectorización por SBERT entrega vectores muy grandes, por lo que probablemente deberás solamente utilizar 10000 datos.

Saludos ✨