dccuchile / spanish-word-embeddings

Spanish word embeddings computed with different methods and from different corpora
Other
354 stars 82 forks source link

Orden de los embeddings #7

Closed jgmontoya closed 4 years ago

jgmontoya commented 4 years ago

Hola,

Los vectores se encuentran ordenados por frecuencia?

Esto es útil para que al hacer por ejemplo:

wordvectors_file_vec = 'fasttext-sbwc.3.6.e20.vec'
num_of_vectors = 50000
wordvectors = KeyedVectors.load_word2vec_format(wordvectors_file_vec, limit=num_of_vectors)

Los (por ejemplo) 50.000 vectores que se carguen sean los más frecuentes (y por ende posiblemente los más relevantes).

Saludos!

josecannete commented 4 years ago

Hola @jgmontoya,

Los primeros, entrenados en SUC con FastText, están en orden decreciente de frecuencia.

Saludos!

jgmontoya commented 4 years ago

Bueno saberlo, gracias!