Open victorShawFan opened 6 days ago
尝试训练Qwen-32B的RM,zero3起不来,尝试adam_offload,显示bug:
训练脚本:
已在别处看到作者issue:https://github.com/microsoft/DeepSpeed/issues/5469 参考issue:https://github.com/microsoft/DeepSpeed/issues/5538 当前deepspeed版本正是v0.14.2正在尝试降低版本至0.14.0
这个没有测试过,RM的训练一般没有那么耗资源。欢迎同步进展~
尝试训练Qwen-32B的RM,zero3起不来,尝试adam_offload,显示bug:
训练脚本: