Open BajieZheng opened 1 month ago
bug原因:预热阶段结束之后,学习率一直维持一个数值并没有按照余弦退火算法降低学习率。 经过排查,发现ds_config_zero2.json文件中写了scheduler之后,deepspeed.py的deepspeed_optim_sched函数代码逻辑进入了if里面,没有进入else,触发不了余弦退火,如下图所示 删除之后可以余弦退火降低学习率,如图所示
bug原因:预热阶段结束之后,学习率一直维持一个数值并没有按照余弦退火算法降低学习率。 经过排查,发现ds_config_zero2.json文件中写了scheduler之后,deepspeed.py的deepspeed_optim_sched函数代码逻辑进入了if里面,没有进入else,触发不了余弦退火,如下图所示 删除之后可以余弦退火降低学习率,如图所示