Closed helenxu closed 6 years ago
感谢作者提供的词向量~想问一下,作者在训练word2vec之前,使用HanLP对语料进行分词,使用的是哪个分词算法呢?HMM还是CRF,这对后续训练的影响大吗?另外,分词时有使用用户自定义词典吗?还有,分词后会做停用词、标点符号的过滤处理吗?非常感谢
我们用的标准分词,StandardTokenizer.segment("");,这个东西最终调用的就是N最短路径。分词没有使用用户自定义词典。只过滤了之类的标签,没有删除停用词和标点符号。我们的策略类似英文词向量Google News 300d。
感谢作者提供的词向量~想问一下,作者在训练word2vec之前,使用HanLP对语料进行分词,使用的是哪个分词算法呢?HMM还是CRF,这对后续训练的影响大吗?另外,分词时有使用用户自定义词典吗?还有,分词后会做停用词、标点符号的过滤处理吗?非常感谢