yjh0410 / YOWOv2

The second generation of YOWO action detector.
MIT License
187 stars 31 forks source link

调大batchsize就会报错 #20

Open LewisLeiyongsheng opened 1 year ago

LewisLeiyongsheng commented 1 year ago

image 如图,当Batchsize为8的时候能够正常训练,但是当调大为16及以上后就会报错。使用的是特斯拉V100显存32G,理论上调到80都是够用的。

LewisLeiyongsheng commented 1 year ago

调试后定位到错误,当调大Batchsize后,会出现数据为Nan的情况,定位到ShuffleNetv2的3D卷积的位置,在进行卷积运算之后就会报错 image

LewisLeiyongsheng commented 1 year ago

发现现在batchsize为8的时候也会报错了,再定位发现有些输入数据非常多0,是我的数据加载有问题吗?

a26d0bb1e7bdebe762783477ce0c0e0
T-wow commented 2 weeks ago

你好,请问,请问为什么进行DDP训练损失异常的大,但是进行单卡训练没有这种情况。谢谢解答

LewisLeiyongsheng commented 2 weeks ago

我也不太清楚,那就尽量单卡训练呗,其实训练时间也不算长