datawhalechina / d2l-ai-solutions-manual

《动手学深度学习》习题解答,在线阅读地址如下:
https://datawhalechina.github.io/d2l-ai-solutions-manual/
Other
358 stars 68 forks source link

ch 11 练习11.10.4 没有控制变量 #108

Open YueZhengMeng opened 4 months ago

YueZhengMeng commented 4 months ago

练习11.10.4

尝试构造一个使用Adam算法会发散而Yogi会收敛的例子。

现在的解答的实验中,adam发散而yogi收敛的原因是:adam的实验中学习率设置为0.1,而yogi的实验中设置为0.01 我重新实验发现: 学习率统一为0.01,二者都收敛 学习率统一为0.1,二者都发散

个人认为当前解答说服力不够