ZF4444 / MMAL-Net

This is a PyTorch implementation of the paper "Multi-branch and Multi-scale Attention Learning for Fine-Grained Visual Categorization (MMAL-Net)" (Fan Zhang, Meng Li, Guisheng Zhai, Yizhao Liu).
249 stars 57 forks source link

断点继续训练报错 #17

Open MercuialC opened 4 years ago

MercuialC commented 4 years ago

感谢您的工作! 在我的训练过程中发现 从上一个检查点继续训练时,发生错误,RuntimeError:in loading state_dict for MainNet:Missing key in state_dict:... 请问是否与代码auto_load_resume.py中第18到21行有关?

ZF4444 commented 4 years ago

你好,可以把更详细的错误信息发一下吗?

MercuialC commented 4 years ago

感谢您的回复。我的理解是对代码auto_load_resume.py中第18到21行,删掉model_state_dict中的module的作用是因为使用多GPU训练导致加载模型出现问题。如果是仅使用单卡训练,将其注释掉或者加上判断module是否存在再进行删除解决了报错问题。可以这样理解吗?

Thea1 commented 4 years ago

感谢您的回复。我的理解是对代码auto_load_resume.py中第18到21行,删掉model_state_dict中的module的作用是因为使用多GPU训练导致加载模型出现问题。如果是仅使用单卡训练,将其注释掉或者加上判断module是否存在再进行删除解决了报错问题。可以这样理解吗?

我训练的时候也遇到过这种情况,自己根据错误调整一下就行了,后面我尝试改成多卡训练,会报一个没见过也不知道怎么解决的错误,使用想问问你实现了多卡训练吗? 实现了的话,可否告知一下,如何实现的呀?

PriceZhang commented 4 years ago

同问多GPU训练的方式

ShirinLiu commented 3 years ago

多GPU訓練會出現assert all(map(lambda i: i.is_cuda, inputs))這個錯誤 後來我在model.py中的raw_logits = self.rawcls_net(embedding)加上.to(DEVICE)就可以解決了!