OpenBMB / MiniCPM-V

MiniCPM-V 2.6: A GPT-4V Level MLLM for Single Image, Multi Image and Video on Your Phone
Apache License 2.0
12.71k stars 891 forks source link

deepspeed 配置文件bug #648

Open BajieZheng opened 1 month ago

BajieZheng commented 1 month ago

bug原因:预热阶段结束之后,学习率一直维持一个数值并没有按照余弦退火算法降低学习率。 经过排查,发现ds_config_zero2.json文件中写了scheduler之后,deepspeed.py的deepspeed_optim_sched函数代码逻辑进入了if里面,没有进入else,触发不了余弦退火,如下图所示 image 删除之后可以余弦退火降低学习率,如图所示 image