bubbliiiing / faster-rcnn-pytorch

这是一个faster-rcnn的pytorch实现的库,可以利用voc数据集格式的数据进行训练。
MIT License
1.6k stars 356 forks source link

多卡训练,只有一张卡有利用率 #169

Open pjw2146087 opened 1 year ago

pjw2146087 commented 1 year ago

老师你好,目前设置了多张卡训练,两张卡显存都满了,但是只有一张卡有利用率。 image

看网上教程,正常情况如下:tourch.nn.DataParallel好像要设置一个devices.ids参数,但是在您的代码中没有设置,我加了一下这个参数,显示devidce index错误。但是同样的显卡号我在"train_gpu"参数上设定就没有问题。 image 追踪了一下train_gpu这个参数,好像也没加载到torch.nn.Dataparallel这个方法上,想请教下应该怎么改? image

pjw2146087 commented 1 year ago

image

pjw2146087 commented 1 year ago

image 老师你好,train.py的train_gpu设定的是[0,2,3]但是调试时发现torch.nn.DataParrell内部自动获取显卡,得到的是图上的[0,1,2],这个显卡序号好像对不上。