huawei-noah / Pretrained-Language-Model

Pretrained language model and its related optimization techniques developed by Huawei Noah's Ark Lab.
3.02k stars 628 forks source link

请问会发布中文的General_TinyBERT模型吗? #1

Closed hexiaoyupku closed 4 years ago

hexiaoyupku commented 4 years ago

不知道您是否考虑发布中文General_TinyBERT模型?

nlpBeginner commented 4 years ago

我们正在训练和测试中文的TinyBERT,后续会发布相关模型。同时推荐使用TinyBERT任务相关蒸馏和数据增强模块,整个流程跑下来小模型效果会在大多数任务上逼近老师模型BERT-base。目前General TinyBERT逼近老师模型效果还有一定挑战,我们也正在进行相关的探索。

hexiaoyupku commented 4 years ago

我们正在训练和测试中文的TinyBERT,后续会发布相关模型。同时推荐使用TinyBERT任务相关蒸馏和数据增强模块,整个流程跑下来小模型效果会在大多数任务上逼近老师模型BERT-base。目前General TinyBERT逼近老师模型效果还有一定挑战,我们也正在进行相关的探索。

谢谢这么快的回复! 另外读论文的时候,有个困惑想请教下: 蒸馏时下面这两个loss都引入了teacher没有的参数,我理解目的是为了让teacher和student对齐hidden_size,但如果它俩的hidden_size本身就相等的话,这个参数是否还有用?不知道你们有没有做相关ablation study? image image

nlpBeginner commented 4 years ago

我们正在训练和测试中文的TinyBERT,后续会发布相关模型。同时推荐使用TinyBERT任务相关蒸馏和数据增强模块,整个流程跑下来小模型效果会在大多数任务上逼近老师模型BERT-base。目前General TinyBERT逼近老师模型效果还有一定挑战,我们也正在进行相关的探索。

谢谢这么快的回复! 另外读论文的时候,有个困惑想请教下: 蒸馏时下面这两个loss都引入了teacher没有的参数,我理解目的是为了让teacher和student对齐hidden_size,但如果它俩的hidden_size本身就相等的话,这个参数是否还有用?不知道你们有没有做相关ablation study? image image

对,引入W矩阵是为了让teacher和student的hidden_size对齐。现在我们所有实验设置都采用线性变换(表4也是这样)。如果维度一样是可以直接算MSE,效果估计没有太多差别。

hexiaoyupku commented 4 years ago

了解了,多谢~ 因为我没有资源去进行预训练(即使是小模型),所以当下要尝试您的方法的话就只能抽取原BERT的若干层来初始化student模型,所以hidden_size压缩不了。非常期待您发布中文GeneralTinyBERT模型^^ !

yaleimeng commented 4 years ago

也可以考虑Roberta取代BERT_base作为老师模型。目前没有基于中文语料通用蒸馏的模型,暂时没法把这个模型用到实际任务中。 国人的研究成果,希望早日在中文环境用起来。

nlpBeginner commented 4 years ago

也可以考虑Roberta取代BERT_base作为老师模型。目前没有基于中文语料通用蒸馏的模型,暂时没法把这个模型用到实际任务中。 国人的研究成果,希望早日在中文环境用起来。

目前,我们也在做Roberta的训练与测试。基于中文语料的General_TinyBERT随后将会公开。非常感谢你对TinyBERT的关注。

xxllp commented 4 years ago

快饿死了

yaleimeng commented 4 years ago

一个多月了还没出来?看来华为就是发个论文而已,不打算发模型了。 @xxllp 其实本来也没报太大希望。牢厂真是名不虚传

shangbl commented 3 years ago

还是没有中文模型?