jsksxs360 / Word2Vec

对 ansj 编写的 Word2VEC_java 的进一步包装,同时实现了常用的词语相似度和句子相似度计算。
Apache License 2.0
176 stars 81 forks source link

怎么训练模型 #10

Open huan415 opened 2 years ago

huan415 commented 2 years ago

Word2Vec.trainJavaModel("data/train.txt", "data/test.model");

你好, data/train.txt 和 data/test.model 能给个样例吗。

例如:我有10句话,分词之后,在train.txt是什么样子的。 把相近的词空格分开,放到同一行? 还是10句话,一句一行,词用空格

jsksxs360 commented 2 years ago

你好,data/test.model 是训练好之后保存的模型路径。data/train.txt 是分好词的训练语料,一行是一个文本,每个文本都是用空格分隔的词语,例如:

doc1_word1 doc1_word2 doc1_word3...
doc2_word1 doc2_word2 doc2_word3...
...
jsksxs360 commented 2 years ago

我更建议直接使用 Google 官方的代码来训练模型,是目前公认的准确率最高的 word2vec 版本,与使用 Java 版训练得到的模型格式是完全相同的,后面也可以使用本库加载。可以参见:

训练 Google 版模型 维基百科中文语料库词向量的训练:处理维基百科中文语料