怎么训练模型 - Githubissues

jsksxs360 / Word2Vec

对 ansj 编写的 Word2VEC_java 的进一步包装，同时实现了常用的词语相似度和句子相似度计算。

Apache License 2.0

176 stars 81 forks source link

Open huan415 opened 2 years ago

huan415 commented 2 years ago

Word2Vec.trainJavaModel("data/train.txt", "data/test.model");

你好， data/train.txt 和 data/test.model 能给个样例吗。

例如：我有10句话，分词之后，在train.txt是什么样子的。把相近的词空格分开，放到同一行？还是10句话，一句一行，词用空格

jsksxs360 commented 2 years ago

你好，data/test.model 是训练好之后保存的模型路径。data/train.txt 是分好词的训练语料，一行是一个文本，每个文本都是用空格分隔的词语，例如：

doc1_word1 doc1_word2 doc1_word3...
doc2_word1 doc2_word2 doc2_word3...
...

jsksxs360 commented 2 years ago

我更建议直接使用 Google 官方的代码来训练模型，是目前公认的准确率最高的 word2vec 版本，与使用 Java 版训练得到的模型格式是完全相同的，后面也可以使用本库加载。可以参见：