mean iu always is 0.03469 not change loss is go down

oujieww commented 6 years ago

i try to train segnet on voc ,i use voc-fcn setting and change lr to 2.5e-4 for bacth one,but the mean_iu is 0.03469 for every epoch, loss is not go down well, any one have some idea about this?i want to train segnet on pytorch, thanks !!!

oujieww commented 6 years ago

i also print weights during training,at start of training weights is ok, but after ten minutes , -124.0657], device='cuda:0') tensor([ nan, nan, nan, nan, nan, nan, nan, -2.5257, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, -1.4712, nan, nan, nan, nan, nan, nan, nan, -4.3340, nan, nan, nan, nan, 4.7798, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, -0.8140, nan, nan, nan, nan, nan, 0.6231, nan, nan, -0.0830, nan, nan, nan, -4.2378, nan, nan, nan, nan, nan, nan, 1.4491, nan, nan, nan, 4.9024, nan, nan, nan, 0.5791, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, -20.1657, nan, -11.7630, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, 1.4345, -0.6458, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, -7.9436, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, 3.2859, nan, nan, -1.8619, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, -14.2636, nan, nan, nan, nan, nan, nan, nan, -0.2538, nan, nan, -1.2776, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, 0.8510, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, -0.9666, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, -0.0036, nan, nan, nan, -0.1890, nan, nan, 1.5491, nan, nan, nan, nan, nan, nan, nan, -4.6917, 1.3992, nan, nan, nan, 1.5957, nan, nan, nan, 3.1770, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, -17.7962, -4.8400, nan, nan, nan, nan, nan, -4.3072, nan, nan, nan, nan, nan, nan, nan, nan, -29.6985, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, -1.0487, -4.5289, nan, nan, nan, nan, nan, nan, nan, nan, 3.7416, nan, -15.2371, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, -2.3174, nan, nan, nan, nan, nan, nan, nan, nan, nan, -3.5160, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, -2.1085, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, 22.5394, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan], device='cuda:0') tensor([nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan., nan.], device='cuda:0') tensor([ -217.5221, 313.2904, 11.4995, 17.0104, 11.9238, -119.9138, 9.5754, -35.0100, -131.1973, 661.8594, 81.5032, 1125.1177, 123.3179, 346.6497, 474.5578, -593.2343, 14.8932, 55.6703, 127.7853, 12.4404, -124.1222], device='cuda:0')

chenyzh28 commented 6 years ago

I also encountered this problem. Train loss is always nan if I changed the learning rate, and the value of mean_iu is so small. May I ask if you have solved it yet?

wul93 commented 5 years ago

I also have the same problem, mean iu always is 0.03473, have you solved it?

oujieww commented 5 years ago

i remember i use another code ， i abandoned this one

wul93 commented 5 years ago

Thanks for your response, I am trying to run other codes.

zijundeng / pytorch-semantic-segmentation

mean iu always is 0.03469 not change loss is go down #43