Closed hengyeliu closed 2 years ago
你好!我按照README里面的ResNeSt101用多卡训练时,一开始就梯度爆炸,请问你有遇到这种情况吗?
这并不是梯度爆炸,只是用ResNeSt101时防止爆显存而设置的混合精度训练,loss_scale设的dynamic,所以会自适应去改变loss scale,你可以观察一下后续真正的loss是否为Nan
我按说明用8卡训练,后面loss为nan了,应该怎么调整
你好!我按照README里面的ResNeSt101用多卡训练时,一开始就梯度爆炸,请问你有遇到这种情况吗?