断点继续训练报错

ZF4444 / MMAL-Net

This is a PyTorch implementation of the paper "Multi-branch and Multi-scale Attention Learning for Fine-Grained Visual Categorization (MMAL-Net)" (Fan Zhang, Meng Li, Guisheng Zhai, Yizhao Liu).

249 stars 57 forks source link

断点继续训练报错 #17

Open MercuialC opened 4 years ago

MercuialC commented 4 years ago

感谢您的工作！在我的训练过程中发现从上一个检查点继续训练时，发生错误，RuntimeError:in loading state_dict for MainNet:Missing key in state_dict:... 请问是否与代码auto_load_resume.py中第18到21行有关？

ZF4444 commented 4 years ago

你好，可以把更详细的错误信息发一下吗？

MercuialC commented 4 years ago

感谢您的回复。我的理解是对代码auto_load_resume.py中第18到21行，删掉model_state_dict中的module的作用是因为使用多GPU训练导致加载模型出现问题。如果是仅使用单卡训练，将其注释掉或者加上判断module是否存在再进行删除解决了报错问题。可以这样理解吗？

Thea1 commented 4 years ago

感谢您的回复。我的理解是对代码auto_load_resume.py中第18到21行，删掉model_state_dict中的module的作用是因为使用多GPU训练导致加载模型出现问题。如果是仅使用单卡训练，将其注释掉或者加上判断module是否存在再进行删除解决了报错问题。可以这样理解吗？

我训练的时候也遇到过这种情况，自己根据错误调整一下就行了，后面我尝试改成多卡训练，会报一个没见过也不知道怎么解决的错误，使用想问问你实现了多卡训练吗？实现了的话，可否告知一下，如何实现的呀？

PriceZhang commented 4 years ago

同问多GPU训练的方式

ShirinLiu commented 3 years ago

多GPU訓練會出現assert all(map(lambda i: i.is_cuda, inputs))這個錯誤後來我在model.py中的raw_logits = self.rawcls_net(embedding)加上.to(DEVICE)就可以解決了！