vocab.pkl 与word2vec 预训练文件对应问题

649453932 / Chinese-Text-Classification-Pytorch

中文文本分类，TextCNN，TextRNN，FastText，TextRCNN，BiLSTM_Attention，DPCNN，Transformer，基于pytorch，开箱即用。

MIT License

5.27k stars 1.23k forks source link

大神你好，请问一个问题：

在 utils.py 中，main()方法将训练集中出现的字词，重新生成vocab.pkl 以及对应的embedded npz文件。这样训练集中没有出现的字词就是unk，不会出现在vocab.pkl 也没有对应的pretrained embed。

请问为什么一定要加这个步骤了？不加这个步骤，利用从搜狗新闻训练的所有字词及其预训练embedded向量，也可以顺利模型训练和预测。

1.增加这个步骤，只考虑训练集中出现的字词，可以提高准确性，还是别的考虑，谢谢？ 2.另外vocab.pkl 中额外增加了UNK 和PAD，但是对应的embedded npz文件似乎没有对应UNK 和PAD 的id 对应的embed vector？谢谢您 @649453932

649453932 / Chinese-Text-Classification-Pytorch