GewelsJI / SINet-V2

Concealed Object Detection (SINet-V2, IEEE TPAMI 2022). Code is implemented by PyTorch/Jittor frameworks.
Apache License 2.0
232 stars 54 forks source link

为什么训练过程的loss一直为NaN,降不下来,用了pretrained的res2net #17

Closed K-tang-mkv closed 1 year ago

GewelsJI commented 1 year ago

如果你的数据正常,代码没有经过任何修改,没有使用Apex的情况下,不应该会出现NaN情况,请检查确认一下上述问题。如果还是有问题,请给出更多的细节,以便更好的帮助到你!

K-tang-mkv commented 1 year ago

训练集是使用你们提供的OneDrive,我检查了一下,其中Imgs和GT里面图片的数量是4040,代码没有经过任何修改,唯一改动地方只有在Res2Net_v1b.py中的第195行,我把res2net50_v1b_26w_4s-3cf99910.pth路径改成了自己的。没有使用Apex,python=3.6,torch=1.3.1 上述是我的情况,最后运行 python MyTrain_Val.py 参数都是默认,结果loss为NaN,100个epoch内都未曾下降

GewelsJI commented 1 year ago

建议保持一致先保证不出错

K-tang-mkv commented 1 year ago

是一致的,刚刚我修改了--clip为1,现在训练,loss回复正常了,难道是之前梯度爆炸了吗,可以提供你们的训练日志以供参考吗,感谢您的帮助

GewelsJI commented 1 year ago

你可以训练一下生成loggings,这套代码训练很稳定,差异并不大

GewelsJI commented 1 year ago

问题会暂时关闭,如有其他帮助请再次开启!