huawei-noah / Pretrained-Language-Model

Pretrained language model and its related optimization techniques developed by Huawei Noah's Ark Lab.
3.02k stars 628 forks source link

TinyBert中,关于task_distill的损失函数中,各个层损失函数对应权重怎么初始化? #26

Closed viewlei closed 3 years ago

viewlei commented 4 years ago

你好,看到论文中的公式(6),每一层的损失需要乘上当前层对应的超参数λ_m之后再求和,这里我理解的是这个λ_m是初始化的值,介于0到1之间,并且所有的λ加起来值为1。 1、请问实验中也的确是这么实现的吗?我在task_distill.py中没有看到有类似λ的变量,好像是直接把每一层的损失加起来? 2、如果在实现的时候的确有这样的λ_m的话,想问下当时是怎么初始化的? 3、初始化种子不同,对收敛后λ的最终值影响大吗?

感谢回答! image

Cluluxiu commented 4 years ago

我记得论文4.1节最后说了这个权重设置为1,不是相加为1。

wykdg commented 4 years ago

这个就是强行写出来的公式,需要蒸馏的层为1,其他为0