FanhuaandLuomu / BiLstm_CNN_CRF_CWS

BiLstm+CNN+CRF 法律文档(合同类案件)领域分词(100篇标注样本)
385 stars 108 forks source link

embedding_model的疑问 #5

Closed GaoQ1 closed 6 years ago

GaoQ1 commented 6 years ago

同学,你好。关于embedding_model.py代码我有个小疑问。代码中用genism做中文词向量的。但是你代码好像将语料库中本来已空格分好的词又replace了,最终输出的是字的向量。不知道是不是我理解有误。

for dirname in self.dirname_list:
    for fname in os.listdir(dirname):
        for line in codecs.open(dirname+os.sep+fname,'r','utf-8'):
            pieces=line.strip().replace(' ','')
            words=[w for w in pieces]
            yield words

pieces这块你把空格给replace了。

GaoQ1 commented 6 years ago

看完整个项目理解了,这儿用gensim就是做字向量化的。但是还有一个问题,这儿为啥要用gensim做word embedding训练?是不是可以这么理解,一开始给dictionary做一个random_uniform随机向量化,然后训练的时候look_up。这儿的word embedding并没有加入训练吧。望解答,谢谢。