请问为什么我在基于Chatglm-6b模型执行train_sft.sh训练时，启用deepspeed没有效果

sunzeyeah / RLHF

Implementation of Chinese ChatGPT

282 stars 36 forks source link

Closed IconShan closed 4 months ago

IconShan commented 1 year ago

如题，我有三张A100 40G显存的显卡，为什么没有如愿的将训练显存均匀的分布到三块卡上，train_batchsize为4，eval_batchsize为16，反而会显存溢出，请问这个问题能不能解决？感谢感谢~~

sunzeyeah commented 1 year ago

你好是否是单机多卡还是多机多卡？如果是多机多卡，需要调整一下deepspeed的启动脚本

lgh0504 commented 11 months ago

如题，我有三张A100 40G显存的显卡，为什么没有如愿的将训练显存均匀的分布到三块卡上，train_batchsize为4，eval_batchsize为16，反而会显存溢出，请问这个问题能不能解决？感谢感谢~~

擦。。。炫富啊。。。羡慕哭了