分词词库问题 - Githubissues

Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量

Apache License 2.0

11.82k stars 2.32k forks source link

词向量文件里面的词是去掉低频词的词表。实际上CA8里面的词不完全是HanLP得到的，我们同时参考了ANSJ，LTP等分词工具，以及《现代汉语词典》（第六版）和《信息处理用现代汉语分词规范》（GB/T 13715-92）等规范。所以CA8里面会存在少量词组。单纯的用HanLP在百度百科语料上面分词并不能覆盖CA8的全部词，只能覆盖大多数。如果想要完全覆盖CA8的全部词汇可能需要按CA8建额外的分词词表。

Embedding / Chinese-Word-Vectors

分词词库问题 #26