如何读取.bigram - Githubissues

Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量

Apache License 2.0

11.82k stars 2.32k forks source link

如何读取.bigram #85

Open NancyLele opened 5 years ago

NancyLele commented 5 years ago

@shenshen-hungry
我这边下载了基于金融新闻的数据，下载下来的数据格式是.bigram。我想知道如何才能使用此资料。盼复

shenshen-hungry commented 5 years ago

都是文本文件，.bigram指的是用了bigram信息的。用各种读文件的代码都可以，建议逐行读，如果整体都读到内存的话需要很大内存空间。

NancyLele commented 5 years ago

@shenshen-hungry 谢谢，了解了。还有一个小问题，我想知道，哪个文件是预训练好的word2vec模型呢

shenshen-hungry commented 5 years ago

只用word feature的是和word2vec一致的。不过所有词向量文件都是和word2vec格式一样的。

NancyLele commented 5 years ago

以文件sgns.financial.bigram为例，我想要知道“投资期限”的词向量，我直接去这个文件中查找就好了吗？因为我是第一次接触自然语言处理，所有问题有点多，希望不要介意

shenshen-hungry commented 5 years ago

首先得确保分词工具把“投资期限”当成了一个词，而不是分成了“投资”“期限”两个词。如果是一个词的话，可以在sgns.financial.bigram中检索，每行都是“词向量”的形式，也就是最开始是词，后面是向量，都是用空格作为分隔符的。如果是两个词的话，可以用相加取平均的方法，即先找到“投资”和“期限”两个词，对位相加取平均。

NancyLele commented 5 years ago

非常感谢，我知道了