Open pjw2146087 opened 1 year ago
老师你好,目前设置了多张卡训练,两张卡显存都满了,但是只有一张卡有利用率。
看网上教程,正常情况如下:tourch.nn.DataParallel好像要设置一个devices.ids参数,但是在您的代码中没有设置,我加了一下这个参数,显示devidce index错误。但是同样的显卡号我在"train_gpu"参数上设定就没有问题。 追踪了一下train_gpu这个参数,好像也没加载到torch.nn.Dataparallel这个方法上,想请教下应该怎么改?
老师你好,train.py的train_gpu设定的是[0,2,3]但是调试时发现torch.nn.DataParrell内部自动获取显卡,得到的是图上的[0,1,2],这个显卡序号好像对不上。
老师你好,目前设置了多张卡训练,两张卡显存都满了,但是只有一张卡有利用率。![image](https://user-images.githubusercontent.com/39616813/229333469-4f606495-c78d-49c5-a638-9e11b29811e0.png)
看网上教程,正常情况如下:tourch.nn.DataParallel好像要设置一个devices.ids参数,但是在您的代码中没有设置,我加了一下这个参数,显示devidce index错误。但是同样的显卡号我在"train_gpu"参数上设定就没有问题。
追踪了一下train_gpu这个参数,好像也没加载到torch.nn.Dataparallel这个方法上,想请教下应该怎么改?
![image](https://user-images.githubusercontent.com/39616813/229333588-f0f84b80-f64b-4ba6-9f8d-c1d2f439388e.png)