回复 - Githubissues

stanleylsx / text_classifier_tf2

Tensorflow2.3的文本分类项目，支持各种分类模型，支持相关tricks。

174 stars 42 forks source link

暂时没有了，如果你使用预训练模型，不会走token2id这一套，所以不用考虑增加词表相关问题；

使用预训练模型的情况下，如果不走token2id这一套，一般可以走哪些方式呢？

如果你是用textcnn这些传统的网络，网络里面的embedding层已经将词表固化了，新增语料要么就是直接用老词表出现UNK代替，要么就是全部重新生成词表再训练。

有哪些模型，可以在新词汇出现的时候，不用重新生成词表重新训练而直接输入模型测试呢？

或者还是说应该使用一套“非常全面”的包含广泛的词汇的公共此表库吗？

stanleylsx / text_classifier_tf2