TinyBert中，关于task_distill的损失函数中，各个层损失函数对应权重怎么初始化？

huawei-noah / Pretrained-Language-Model

Pretrained language model and its related optimization techniques developed by Huawei Noah's Ark Lab.

3.02k stars 628 forks source link

你好，看到论文中的公式(6）,每一层的损失需要乘上当前层对应的超参数λ_m之后再求和，这里我理解的是这个λ_m是初始化的值，介于0到1之间，并且所有的λ加起来值为1。 1、请问实验中也的确是这么实现的吗？我在task_distill.py中没有看到有类似λ的变量，好像是直接把每一层的损失加起来？ 2、如果在实现的时候的确有这样的λ_m的话，想问下当时是怎么初始化的？ 3、初始化种子不同，对收敛后λ的最终值影响大吗？

感谢回答！

huawei-noah / Pretrained-Language-Model

TinyBert中，关于task_distill的损失函数中，各个层损失函数对应权重怎么初始化？ #26