Closed hexiaoyupku closed 4 years ago
我们正在训练和测试中文的TinyBERT,后续会发布相关模型。同时推荐使用TinyBERT任务相关蒸馏和数据增强模块,整个流程跑下来小模型效果会在大多数任务上逼近老师模型BERT-base。目前General TinyBERT逼近老师模型效果还有一定挑战,我们也正在进行相关的探索。
我们正在训练和测试中文的TinyBERT,后续会发布相关模型。同时推荐使用TinyBERT任务相关蒸馏和数据增强模块,整个流程跑下来小模型效果会在大多数任务上逼近老师模型BERT-base。目前General TinyBERT逼近老师模型效果还有一定挑战,我们也正在进行相关的探索。
谢谢这么快的回复! 另外读论文的时候,有个困惑想请教下: 蒸馏时下面这两个loss都引入了teacher没有的参数,我理解目的是为了让teacher和student对齐hidden_size,但如果它俩的hidden_size本身就相等的话,这个参数是否还有用?不知道你们有没有做相关ablation study?
我们正在训练和测试中文的TinyBERT,后续会发布相关模型。同时推荐使用TinyBERT任务相关蒸馏和数据增强模块,整个流程跑下来小模型效果会在大多数任务上逼近老师模型BERT-base。目前General TinyBERT逼近老师模型效果还有一定挑战,我们也正在进行相关的探索。
谢谢这么快的回复! 另外读论文的时候,有个困惑想请教下: 蒸馏时下面这两个loss都引入了teacher没有的参数,我理解目的是为了让teacher和student对齐hidden_size,但如果它俩的hidden_size本身就相等的话,这个参数是否还有用?不知道你们有没有做相关ablation study?
对,引入W矩阵是为了让teacher和student的hidden_size对齐。现在我们所有实验设置都采用线性变换(表4也是这样)。如果维度一样是可以直接算MSE,效果估计没有太多差别。
了解了,多谢~ 因为我没有资源去进行预训练(即使是小模型),所以当下要尝试您的方法的话就只能抽取原BERT的若干层来初始化student模型,所以hidden_size压缩不了。非常期待您发布中文GeneralTinyBERT模型^^ !
也可以考虑Roberta取代BERT_base作为老师模型。目前没有基于中文语料通用蒸馏的模型,暂时没法把这个模型用到实际任务中。 国人的研究成果,希望早日在中文环境用起来。
也可以考虑Roberta取代BERT_base作为老师模型。目前没有基于中文语料通用蒸馏的模型,暂时没法把这个模型用到实际任务中。 国人的研究成果,希望早日在中文环境用起来。
目前,我们也在做Roberta的训练与测试。基于中文语料的General_TinyBERT随后将会公开。非常感谢你对TinyBERT的关注。
快饿死了
一个多月了还没出来?看来华为就是发个论文而已,不打算发模型了。 @xxllp 其实本来也没报太大希望。牢厂真是名不虚传
还是没有中文模型?
不知道您是否考虑发布中文General_TinyBERT模型?