jsksxs360 / Word2Vec

对 ansj 编写的 Word2VEC_java 的进一步包装,同时实现了常用的词语相似度和句子相似度计算。
Apache License 2.0
176 stars 81 forks source link

如何训练java版的模型 #7

Open skyfully opened 6 years ago

skyfully commented 6 years ago

如何训练java版的模型(是否还有做分词),得需要多大的语料库呢? 想做某个受限领域内的问答系统,因为语料库比较少,可以用这个模型来搞么?(感谢回答)

jsksxs360 commented 6 years ago

训练语料是需要分好词的,然后调用 trainJavaModel 函数训练模型,例如: Word2Vec.trainJavaModel("data/train.txt", "data/test.model"); 这样的,train.txt 就是分好词的语料。

训练语料当然越多越好啦,如果自己的语料规模较少,可以将自己的语料和已有的大语料(例如维基百科等)合并后再训练。

发自我的 iPhone