IrvingMeng / MagFace

MagFace: A Universal Representation for Face Recognition and Quality Assessment, CVPR2021, Oral
Apache License 2.0
626 stars 85 forks source link

distribute train load model fail #16

Closed zhangxiaopang88 closed 3 years ago

zhangxiaopang88 commented 3 years ago

你好,我执行run_dist.sh命令保存的模型,使用torch.load一直加载失败,请问可以给一些建议吗关于load分布式训练保存模型?

IrvingMeng commented 3 years ago

您好,这个是之前改api引入的一个bug,更新到最新版本的代码应该就没有问题了。 涉及到的代码: https://github.com/IrvingMeng/MagFace/blob/main/run/trainer_dist.py#L161-L174

zhangxiaopang88 commented 3 years ago

您好,保存模型时多加args.rank == 0这个判断,使用torch.load就可以load成功了吗?

IrvingMeng commented 3 years ago

您好,保存模型时多加args.rank == 0这个判断,使用torch.load就可以load成功了吗?

yep