Open YueZhengMeng opened 4 months ago
尝试构造一个使用Adam算法会发散而Yogi会收敛的例子。
现在的解答的实验中,adam发散而yogi收敛的原因是:adam的实验中学习率设置为0.1,而yogi的实验中设置为0.01 我重新实验发现: 学习率统一为0.01,二者都收敛 学习率统一为0.1,二者都发散
个人认为当前解答说服力不够
练习11.10.4
尝试构造一个使用Adam算法会发散而Yogi会收敛的例子。
现在的解答的实验中,adam发散而yogi收敛的原因是:adam的实验中学习率设置为0.1,而yogi的实验中设置为0.01 我重新实验发现: 学习率统一为0.01,二者都收敛 学习率统一为0.1,二者都发散
个人认为当前解答说服力不够