jsksxs360 / Word2Vec

对 ansj 编写的 Word2VEC_java 的进一步包装,同时实现了常用的词语相似度和句子相似度计算。
Apache License 2.0
176 stars 81 forks source link

适配其他国家的语言 #8

Open DorisGM opened 5 years ago

DorisGM commented 5 years ago

请问 如果要适配大多数其他国家的语言,要怎么做?

是要自己找到语料库,然后训练? 不同国家,分词方法还不一样吗?

jsksxs360 commented 5 years ago

你好,Word2Vec 是一个语言模型,词向量只是副产物。对于任意一种语言,词向量都需要通过在大量语料上训练来得到。分词主要针对中文(因为中文词与词之间没有分隔符),英语直接用空格分都分得差不多了。

DorisGM commented 5 years ago

好的 谢谢解答。