Closed GaoQ1 closed 6 years ago
同学,你好。关于embedding_model.py代码我有个小疑问。代码中用genism做中文词向量的。但是你代码好像将语料库中本来已空格分好的词又replace了,最终输出的是字的向量。不知道是不是我理解有误。
for dirname in self.dirname_list: for fname in os.listdir(dirname): for line in codecs.open(dirname+os.sep+fname,'r','utf-8'): pieces=line.strip().replace(' ','') words=[w for w in pieces] yield words
pieces这块你把空格给replace了。
看完整个项目理解了,这儿用gensim就是做字向量化的。但是还有一个问题,这儿为啥要用gensim做word embedding训练?是不是可以这么理解,一开始给dictionary做一个random_uniform随机向量化,然后训练的时候look_up。这儿的word embedding并没有加入训练吧。望解答,谢谢。
同学,你好。关于embedding_model.py代码我有个小疑问。代码中用genism做中文词向量的。但是你代码好像将语料库中本来已空格分好的词又replace了,最终输出的是字的向量。不知道是不是我理解有误。
pieces这块你把空格给replace了。