sunzeyeah / RLHF

Implementation of Chinese ChatGPT
282 stars 36 forks source link

请问为什么我在基于Chatglm-6b模型执行train_sft.sh训练时,启用deepspeed没有效果 #20

Closed IconShan closed 4 months ago

IconShan commented 1 year ago

如题,我有三张A100 40G显存的显卡,为什么没有如愿的将训练显存均匀的分布到三块卡上,train_batchsize为4,eval_batchsize为16,反而会显存溢出,请问这个问题能不能解决?感谢感谢~~

sunzeyeah commented 1 year ago

你好 是否是单机多卡还是多机多卡?如果是多机多卡,需要调整一下deepspeed的启动脚本

lgh0504 commented 11 months ago

如题,我有三张A100 40G显存的显卡,为什么没有如愿的将训练显存均匀的分布到三块卡上,train_batchsize为4,eval_batchsize为16,反而会显存溢出,请问这个问题能不能解决?感谢感谢~~

擦。。。炫富啊。。。羡慕哭了