Open CatDroid opened 1 month ago
"" 并且 权重已经衰减到 alpha * (factor"" 这个 我明白了, kd 和ce 的 alpha=loss_rate= 1.0 factor=1.0 所以从第30 epoch开始,权重都是1了,只有cd的权重还在衰减。
这样一开始不计算ce kd的loss,只计算cd的loss,对精度是有帮助的?
还补充一个疑问"epoch // 30" 我看用的是// 也就是loss权重因子衰减不是缓慢减少的,而是阶梯下降的,这样会有什么样的好处呢? 或者说为什么不直接用 epoch / 30 , 让loss权重因子衰减是缓慢下降的?
in utils/util.py
根据上面的代码,在训练开始,没有计算ce和kd的loss?只靠着cd的loss计算梯度, 做参数更新? 在第30个epoch开始才计算ce kd ? 并且 权重已经衰减到 alpha * (factor ?