请问会发布中文的General_TinyBERT模型吗？

huawei-noah / Pretrained-Language-Model

Pretrained language model and its related optimization techniques developed by Huawei Noah's Ark Lab.

3.02k stars 628 forks source link

请问会发布中文的General_TinyBERT模型吗？ #1

Closed hexiaoyupku closed 4 years ago

hexiaoyupku commented 4 years ago

不知道您是否考虑发布中文General_TinyBERT模型？

nlpBeginner commented 4 years ago

我们正在训练和测试中文的TinyBERT，后续会发布相关模型。同时推荐使用TinyBERT任务相关蒸馏和数据增强模块，整个流程跑下来小模型效果会在大多数任务上逼近老师模型BERT-base。目前General TinyBERT逼近老师模型效果还有一定挑战，我们也正在进行相关的探索。

hexiaoyupku commented 4 years ago

我们正在训练和测试中文的TinyBERT，后续会发布相关模型。同时推荐使用TinyBERT任务相关蒸馏和数据增强模块，整个流程跑下来小模型效果会在大多数任务上逼近老师模型BERT-base。目前General TinyBERT逼近老师模型效果还有一定挑战，我们也正在进行相关的探索。

谢谢这么快的回复！另外读论文的时候，有个困惑想请教下：蒸馏时下面这两个loss都引入了teacher没有的参数，我理解目的是为了让teacher和student对齐hidden_size，但如果它俩的hidden_size本身就相等的话，这个参数是否还有用？不知道你们有没有做相关ablation study？

nlpBeginner commented 4 years ago

我们正在训练和测试中文的TinyBERT，后续会发布相关模型。同时推荐使用TinyBERT任务相关蒸馏和数据增强模块，整个流程跑下来小模型效果会在大多数任务上逼近老师模型BERT-base。目前General TinyBERT逼近老师模型效果还有一定挑战，我们也正在进行相关的探索。

谢谢这么快的回复！另外读论文的时候，有个困惑想请教下：蒸馏时下面这两个loss都引入了teacher没有的参数，我理解目的是为了让teacher和student对齐hidden_size，但如果它俩的hidden_size本身就相等的话，这个参数是否还有用？不知道你们有没有做相关ablation study？

对，引入W矩阵是为了让teacher和student的hidden_size对齐。现在我们所有实验设置都采用线性变换（表4也是这样）。如果维度一样是可以直接算MSE，效果估计没有太多差别。

hexiaoyupku commented 4 years ago

了解了，多谢~ 因为我没有资源去进行预训练（即使是小模型），所以当下要尝试您的方法的话就只能抽取原BERT的若干层来初始化student模型，所以hidden_size压缩不了。非常期待您发布中文GeneralTinyBERT模型^^ !

yaleimeng commented 4 years ago

也可以考虑Roberta取代BERT_base作为老师模型。目前没有基于中文语料通用蒸馏的模型，暂时没法把这个模型用到实际任务中。国人的研究成果，希望早日在中文环境用起来。

nlpBeginner commented 4 years ago

也可以考虑Roberta取代BERT_base作为老师模型。目前没有基于中文语料通用蒸馏的模型，暂时没法把这个模型用到实际任务中。国人的研究成果，希望早日在中文环境用起来。

目前，我们也在做Roberta的训练与测试。基于中文语料的General_TinyBERT随后将会公开。非常感谢你对TinyBERT的关注。

xxllp commented 4 years ago

快饿死了

yaleimeng commented 4 years ago

一个多月了还没出来？看来华为就是发个论文而已，不打算发模型了。 @xxllp 其实本来也没报太大希望。牢厂真是名不虚传

shangbl commented 3 years ago

还是没有中文模型？