dccuchile / spanish-word-embeddings

Spanish word embeddings computed with different methods and from different corpora
Other
354 stars 82 forks source link

word frecuencies #6

Closed diegovalenzuelaiturra closed 4 years ago

diegovalenzuelaiturra commented 5 years ago

Hola,

Sería genial si pudieran publicar los diccionarios con las frecuencias en las que aparece cada token del vocabulario en el corpus original ?

Muchas gracias :)

jorgeperezrojas commented 4 years ago

Hola @diegovalenzuelaiturra trataremos de publicarlos. De todas maneras, los vocabularios y frecuencias puedes obtenerlos desde los repositorios de los corpus mismos. Si lo haces antes que nosotros y nos haces un pull request, los agregamos ;-)

Saludos

josecannete commented 4 years ago

Hola @jorgeperezrojas y @diegovalenzuelaiturra,

Hay una forma fácil de obtenerlas al menos para los modelos de FastText en Python:

import fasttext model = fasttext.load_model("embeddings-xs-model.bin") palabras, frecuencias = model.get_words(include_freq=True)

Pd: puedo hacer un PR con las frecuencias, en que formato te acomoda dejarlas y donde @jorgeperezrojas ?