cjymz886 / text-cnn

嵌入Word2vec词向量的CNN中文文本分类
MIT License
444 stars 117 forks source link

请问word2vec词表中未出现的词怎么表示呢? #10

Open Melanielyw opened 5 years ago

Melanielyw commented 5 years ago

您好,我想请问如果待预测的文本中出现词向量表中没有的单词,是怎样表示的呢?谢谢您!

MrLeeeee commented 5 years ago

只有那些在词汇表中的词才会被选中去训练,如果一个词没有出现的话,他是不会被编进去的。比如:这是一个奇葩的例子。因为奇葩这个词在词汇表中没有,那么真正编码的句子是:这是一个例子。你可以仔细看一下loader.py中的这句话: data_id.append([word_to_id[x] for x in contents[i] if x in word_to_id])