stanleylsx / text_classifier_tf2

Tensorflow2.3的文本分类项目,支持各种分类模型,支持相关tricks。
174 stars 42 forks source link

回复 #23

Closed jasonsun001 closed 2 years ago

jasonsun001 commented 2 years ago

暂时没有了,如果你使用预训练模型,不会走token2id这一套,所以不用考虑增加词表相关问题;

使用预训练模型的情况下,如果不走token2id这一套,一般可以走哪些方式呢?

如果你是用textcnn这些传统的网络,网络里面的embedding层已经将词表固化了,新增语料要么就是直接用老词表出现UNK代替,要么就是全部重新生成词表再训练。

  1. 有哪些模型,可以在新词汇出现的时候,不用重新生成词表重新训练而直接输入模型测试呢?
  2. 或者还是说应该使用一套“非常全面”的包含广泛的词汇的公共此表库吗?
stanleylsx commented 2 years ago

使用预训练模型的情况下,如果不走token2id这一套,一般可以走哪些方式呢? 详细请见Bert、ALBert、BertWWM等预训练模型系列,参考抱抱脸tranformers的库

  1. 有哪些模型,可以在新词汇出现的时候,不用重新生成词表重新训练而直接输入模型测试呢? 见上面的回答。
  2. 依然见预训练模型BPE、wordpiece分词法。