Closed viewlei closed 3 years ago
你好,看到论文中的公式(6),每一层的损失需要乘上当前层对应的超参数λ_m之后再求和,这里我理解的是这个λ_m是初始化的值,介于0到1之间,并且所有的λ加起来值为1。 1、请问实验中也的确是这么实现的吗?我在task_distill.py中没有看到有类似λ的变量,好像是直接把每一层的损失加起来? 2、如果在实现的时候的确有这样的λ_m的话,想问下当时是怎么初始化的? 3、初始化种子不同,对收敛后λ的最终值影响大吗?
感谢回答!
我记得论文4.1节最后说了这个权重设置为1,不是相加为1。
这个就是强行写出来的公式,需要蒸馏的层为1,其他为0
你好,看到论文中的公式(6),每一层的损失需要乘上当前层对应的超参数λ_m之后再求和,这里我理解的是这个λ_m是初始化的值,介于0到1之间,并且所有的λ加起来值为1。 1、请问实验中也的确是这么实现的吗?我在task_distill.py中没有看到有类似λ的变量,好像是直接把每一层的损失加起来? 2、如果在实现的时候的确有这样的λ_m的话,想问下当时是怎么初始化的? 3、初始化种子不同,对收敛后λ的最终值影响大吗?
感谢回答!