huawei-noah / AdderNet

Code for paper " AdderNet: Do We Really Need Multiplications in Deep Learning?"
BSD 3-Clause "New" or "Revised" License
952 stars 187 forks source link

开源代码和论文的学习率问题 #26

Closed Lininggggggg closed 4 years ago

Lininggggggg commented 4 years ago

您好!想请问下开源代码设置的学习率是否与论文中提到的学习率是不同的? 一个是余弦衰减,一个是自适应学习率? 麻烦解答下,谢谢啊

HantingChen commented 4 years ago

你好,两个方法是一起使用的。 余弦学习率见:https://github.com/huawei-noah/AdderNet/blob/6d8ba15f62c3ecbcaee6f2523819e82a614bed1a/main.py#L54-L58 自适应学习率的代码见:https://github.com/huawei-noah/AdderNet/blob/6d8ba15f62c3ecbcaee6f2523819e82a614bed1a/adder.py#L46

Lininggggggg commented 4 years ago

这样,好的,谢谢啊! 然后还有一个疑惑,即 代码里的第一层卷积层是用乘法卷积做的,其他的是加法做的,但学习率的设置比普通的要高两个数量级(论文里也提到了),想请问下这样的学习率对第一层卷积层有益吗?如果保留了不止一个卷积层的话学习率是否需要相应往回调?

HantingChen commented 4 years ago

学习率的设置和正常网络一样。调高两个数量级是作为自适应学习率的对比试验

Lininggggggg commented 4 years ago

咦,好的,感谢啊哈哈哈,我回去重新看下论文

brisker commented 3 years ago

@HantingChen 你好,我想问下, cuda加速版本的addernet什么时候会开源呢?