Closed IconShan closed 4 months ago
如题,我有三张A100 40G显存的显卡,为什么没有如愿的将训练显存均匀的分布到三块卡上,train_batchsize为4,eval_batchsize为16,反而会显存溢出,请问这个问题能不能解决?感谢感谢~~
你好 是否是单机多卡还是多机多卡?如果是多机多卡,需要调整一下deepspeed的启动脚本
擦。。。炫富啊。。。羡慕哭了
如题,我有三张A100 40G显存的显卡,为什么没有如愿的将训练显存均匀的分布到三块卡上,train_batchsize为4,eval_batchsize为16,反而会显存溢出,请问这个问题能不能解决?感谢感谢~~