Closed Mariobai closed 4 years ago
该文件最后一行是词向量信息,一共有vocab_size * embedding_size个浮点数,按照顺序每embedding个浮点数是一个单词的词向量,顺序按照Vocab文件中的单词顺序。所以需要你手动处理一下。
我想用训练完的SAT的结果去产生词向量,有几个问题想请教您 1,训练结束产生的vector.bin文件中没有具体的word embedding,只有对应的sense embedding,所以说这个vector.bin文件可以直接用来产生词向量么? 2,看到您之前的回复,说SAT.c 的893行对应着word embedding,这是训练完更新结束后的最终的词向量么?这个可以直接保存用来使用么? 3,如何有demo可以演示一下具体的词向量的是怎么获取和用起来的就更好了。
@Qinxiaohui1
还有几个问题想向您请教一下 1,最终产生的word embedding是不是唯一的?要是唯一的话,在接下来用的时候有两个句子“有一种水果是苹果”与“苹果公司新推出了一款新的苹果笔记本电脑”,中的“苹果”的向量不就一样了么? 2,因为在vector.bin 文件中也保存了sense的sememe向量,我们可以仿照SAT的思路,结合上下文信息重新产生word embediding ,这样虽然消歧了,但会不会过程太过繁琐? 3,能否介绍一下你们在应用(Wordsim,Word analogy)过程中的消歧思路,非常感谢。
@Qinxiaohui1
生成了这个文件请问一下怎么调用。我用传统的gensim模型调用不了这个训练好的词向量。