chilynn / sequence-labeling

307 stars 167 forks source link

word embedding支持中文吗? #3

Open JenningsL opened 7 years ago

JenningsL commented 7 years ago

我构造了一份中文的词向量文件,每行是分词后得到的词语、单字或者短语,以及对应的向量。在使用过程中,出现了段错误 (core dumped)。想请问一下这个用法是否支持,还是我构造的词向量文件有问题。

JenningsL commented 7 years ago

另外,建议提供一份word_embeddings 的示例文件。

chilynn commented 7 years ago

支持的,假设有一共有2个单字,每个单字是3维的向量,格式如下: 2 3 你 1 0 1 好 0 0 1

guotong1988 commented 7 years ago

没看懂楼上的例子,希望能再解释下,多谢!

chilynn commented 7 years ago

embedding的格式其实就是gensim的word2vec的模型输出格式,调用的函数就是model.save_word2vec_format(output_path, binary=False)