Closed xiyuanyang45 closed 1 year ago
我看这个MA的sensitivity值计算的函数 def cal_sensitivity_MA(lr, clip, dataset_size): return lr * clip / dataset_size 想问下为什么还要乘一个learning rate呢😭实在是想不明白
因为目前是对参数加噪,不是对梯度加躁。 参考:https://yangwenzhuo.top/2022/05/03/%E8%81%94%E9%82%A6%E5%AD%A6%E4%B9%A0%EF%BC%88%E5%9B%9B%EF%BC%89/
懂了,谢谢!
我看这个MA的sensitivity值计算的函数 def cal_sensitivity_MA(lr, clip, dataset_size): return lr * clip / dataset_size 想问下为什么还要乘一个learning rate呢😭实在是想不明白