Low accuracy for 8 gpus training

Scalsol / mega.pytorch

Memory Enhanced Global-Local Aggregation for Video Object Detection, CVPR2020

Other

570 stars 116 forks source link

Low accuracy for 8 gpus training #51

Closed launchauto closed 4 years ago

launchauto commented 4 years ago

我用您已经训好的模型测试，准确率没问题。我自己训练你的模型，用8个gpu（把nproc_per_node=8）, 最后loss在0.3-0.4之间，8gpu相比较你的4gpu来说学习率增倍，test：IMS_PER_BATCH和solver：IMS_PER_BATCH都设置为8。MAX_ITER: 60000减半。用的也是你提供的8gpu的BASE_RCNN_8gpu.yaml 。但是最终训练出的模型测试map只有55.5% 这是为啥？我又重新开了一个4GPU照着你的命令训练。

launchauto commented 4 years ago

想问下您的log.txt是什么样的？最后总Loss 0.3674是不是没收敛完？

launchauto commented 4 years ago

发现问题了。离线下载的预训练加载模型不成功。预训练模型应该是detectron 的msra pretrained r-101.pkl，不是detectron2 的msra pretrained r-101.pkl 。这两版本的预训练模型层的命名方式、参数设置等不一样。

launchauto commented 4 years ago

邮件联系作者，最后Loss在0.14左右。就是没收敛好