lzhenboy / word2vec-Chinese

a tutorial for training Chinese-word2vec using Wiki corpus
118 stars 27 forks source link

word2vec-Chinese

a tutorial for training Chinese-word2vec using Wiki corpus

word2vec词向量是NLP领域的基础,如何快速地训练出符合自己项目预期的词向量是必要的。

【注】:本项目主要目的在于快速的构建通用中文word2vec词向量,关于word2vec原理后期有时间再补充(文中不足之处欢迎各位大神批评指正,亦可共同交流学习)。

0. 环境要求

1. 获取中文语料库

想要训练好word2vec模型,一份高质量的中文语料库是必要的,目前常用质量较好的中文语料库为维基百科的中文语料库。

2. 中文语料库预处理

2.1 将xml的Wiki数据转换为text格式

2.3 去除英文和空格

2.4 中文分词(jieba分词)

3. word2vec模型训练

4. word2vec模型测试

参考与致谢

  1. https://github.com/zishuaiz/ChineseWord2Vec
  2. https://www.jianshu.com/p/ec27062bd453
  3. https://blog.csdn.net/jdbc/article/details/59483767
    ps:参考文献无法一一列举,如有问题请联系我添加!