Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量
Apache License 2.0
11.82k stars 2.32k forks source link

关于语料预处理 #31

Closed helenxu closed 6 years ago

helenxu commented 6 years ago

感谢作者提供的词向量~想问一下,作者在训练word2vec之前,使用HanLP对语料进行分词,使用的是哪个分词算法呢?HMM还是CRF,这对后续训练的影响大吗?另外,分词时有使用用户自定义词典吗?还有,分词后会做停用词、标点符号的过滤处理吗?非常感谢

shenshen-hungry commented 6 years ago

我们用的标准分词,StandardTokenizer.segment("");,这个东西最终调用的就是N最短路径。分词没有使用用户自定义词典。只过滤了之类的标签,没有删除停用词和标点符号。我们的策略类似英文词向量Google News 300d。