Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量
Apache License 2.0
11.82k stars 2.32k forks source link

如何读取.bigram #85

Open NancyLele opened 5 years ago

NancyLele commented 5 years ago

@shenshen-hungry
我这边下载了基于金融新闻的数据,下载下来的数据格式是.bigram。我想知道如何才能使用此资料。盼复

shenshen-hungry commented 5 years ago

都是文本文件,.bigram指的是用了bigram信息的。用各种读文件的代码都可以,建议逐行读,如果整体都读到内存的话需要很大内存空间。

NancyLele commented 5 years ago

@shenshen-hungry 谢谢,了解了。还有一个小问题,我想知道,哪个文件是预训练好的word2vec模型呢

shenshen-hungry commented 5 years ago

只用word feature的是和word2vec一致的。不过所有词向量文件都是和word2vec格式一样的。

NancyLele commented 5 years ago

以文件sgns.financial.bigram为例,我想要知道“投资期限”的词向量,我直接去这个文件中查找就好了吗? 因为我是第一次接触自然语言处理,所有问题有点多,希望不要介意

shenshen-hungry commented 5 years ago

首先得确保分词工具把“投资期限”当成了一个词,而不是分成了“投资”“期限”两个词。 如果是一个词的话,可以在sgns.financial.bigram中检索,每行都是“词 向量”的形式,也就是最开始是词,后面是向量,都是用空格作为分隔符的。 如果是两个词的话,可以用相加取平均的方法,即先找到“投资”和“期限”两个词,对位相加取平均。

NancyLele commented 5 years ago

非常感谢,我知道了