word embedding支持中文吗？

chilynn / sequence-labeling

307 stars 166 forks source link

Open JenningsL opened 8 years ago

JenningsL commented 8 years ago

我构造了一份中文的词向量文件，每行是分词后得到的词语、单字或者短语，以及对应的向量。在使用过程中，出现了段错误 (core dumped)。想请问一下这个用法是否支持，还是我构造的词向量文件有问题。

JenningsL commented 8 years ago

另外，建议提供一份word_embeddings 的示例文件。

chilynn commented 8 years ago

支持的，假设有一共有2个单字，每个单字是3维的向量，格式如下： 2 3 你 1 0 1 好 0 0 1

guotong1988 commented 8 years ago

没看懂楼上的例子，希望能再解释下，多谢！

chilynn commented 8 years ago

embedding的格式其实就是gensim的word2vec的模型输出格式，调用的函数就是model.save_word2vec_format(output_path, binary=False)