embedding_model的疑问

FanhuaandLuomu / BiLstm_CNN_CRF_CWS

BiLstm+CNN+CRF 法律文档（合同类案件）领域分词（100篇标注样本）

385 stars 108 forks source link

同学，你好。关于embedding_model.py代码我有个小疑问。代码中用genism做中文词向量的。但是你代码好像将语料库中本来已空格分好的词又replace了，最终输出的是字的向量。不知道是不是我理解有误。

for dirname in self.dirname_list:
    for fname in os.listdir(dirname):
        for line in codecs.open(dirname+os.sep+fname,'r','utf-8'):
            pieces=line.strip().replace(' ','')
            words=[w for w in pieces]
            yield words

pieces这块你把空格给replace了。

FanhuaandLuomu / BiLstm_CNN_CRF_CWS

embedding_model的疑问 #5