关于语料预处理 - Githubissues

Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量

Apache License 2.0

11.82k stars 2.32k forks source link

Closed helenxu closed 6 years ago

helenxu commented 6 years ago

感谢作者提供的词向量~想问一下，作者在训练word2vec之前，使用HanLP对语料进行分词，使用的是哪个分词算法呢？HMM还是CRF，这对后续训练的影响大吗？另外，分词时有使用用户自定义词典吗？还有，分词后会做停用词、标点符号的过滤处理吗？非常感谢

shenshen-hungry commented 6 years ago

我们用的标准分词，StandardTokenizer.segment("");，这个东西最终调用的就是N最短路径。分词没有使用用户自定义词典。只过滤了之类的标签，没有删除停用词和标点符号。我们的策略类似英文词向量Google News 300d。