haoshao-nku / medical_seg

186 stars 21 forks source link

分布式训练问题 #13

Open dragonlee258079 opened 7 months ago

dragonlee258079 commented 7 months ago

你好,我用分布式训练的方式训练该模型的时候发现,进程全都占用在0卡上,其他卡没有显存占用,请问这个情况该怎么解决

dragonlee258079 commented 7 months ago

具体是这种情况: image

zhjllman commented 1 month ago

Could you please tell me if you have solved the distributed training problem?

zhjllman commented 1 month ago

你好,我用分布式训练的方式训练该模型的时候发现,进程全都占用在0卡上,其他卡没有显存占用,请问这个情况该怎么解决 请问这个分布式训练问题,您解决了吗