Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量
Apache License 2.0
11.82k stars 2.32k forks source link

分词词库问题 #26

Open godfatherzzx opened 6 years ago

godfatherzzx commented 6 years ago

你好。非常感谢作者提供的评估语料和词向量,有些词向量的评估得分远远超过自训练的词向量,所以就想拿这些词向量做一些语义相似性的计算应用。问题来了:CA8里的一些词,Hanlp默认的词库是不包含这些词的,想通过聚合去重来合并现有的词库,但是缺少词频和词性的信息。能不能通过云盘的方式,分享一下针对百度百科语料的词库?

shenshen-hungry commented 6 years ago

词向量文件里面的词是去掉低频词的词表。实际上CA8里面的词不完全是HanLP得到的,我们同时参考了ANSJ,LTP等分词工具,以及《现代汉语词典》(第六版)和《信息处理用现代汉语分词规范》(GB/T 13715-92)等规范。所以CA8里面会存在少量词组。单纯的用HanLP在百度百科语料上面分词并不能覆盖CA8的全部词,只能覆盖大多数。如果想要完全覆盖CA8的全部词汇可能需要按CA8建额外的分词词表。