Closed jasonsun001 closed 2 years ago
暂时没有了,如果你使用预训练模型,不会走token2id这一套,所以不用考虑增加词表相关问题;
使用预训练模型的情况下,如果不走token2id这一套,一般可以走哪些方式呢?
如果你是用textcnn这些传统的网络,网络里面的embedding层已经将词表固化了,新增语料要么就是直接用老词表出现UNK代替,要么就是全部重新生成词表再训练。
有哪些模型,可以在新词汇出现的时候,不用重新生成词表重新训练而直接输入模型测试呢? 或者还是说应该使用一套“非常全面”的包含广泛的词汇的公共此表库吗?
使用预训练模型的情况下,如果不走token2id这一套,一般可以走哪些方式呢? 详细请见Bert、ALBert、BertWWM等预训练模型系列,参考抱抱脸tranformers的库
暂时没有了,如果你使用预训练模型,不会走token2id这一套,所以不用考虑增加词表相关问题;
如果你是用textcnn这些传统的网络,网络里面的embedding层已经将词表固化了,新增语料要么就是直接用老词表出现UNK代替,要么就是全部重新生成词表再训练。