ch 11 练习11.10.4 没有控制变量

datawhalechina / d2l-ai-solutions-manual

《动手学深度学习》习题解答，在线阅读地址如下：

Other

358 stars 68 forks source link

Open YueZhengMeng opened 4 months ago

YueZhengMeng commented 4 months ago

尝试构造一个使用Adam算法会发散而Yogi会收敛的例子。

现在的解答的实验中，adam发散而yogi收敛的原因是：adam的实验中学习率设置为0.1，而yogi的实验中设置为0.01 我重新实验发现：学习率统一为0.01，二者都收敛学习率统一为0.1，二者都发散

个人认为当前解答说服力不够