Scalsol / mega.pytorch

Memory Enhanced Global-Local Aggregation for Video Object Detection, CVPR2020
Other
565 stars 115 forks source link

Low accuracy for 8 gpus training #51

Closed launchauto closed 4 years ago

launchauto commented 4 years ago

我用您已经训好的 模型测试,准确率没问题。 我自己训练你的模型,用8个gpu(把nproc_per_node=8), 最后loss在0.3-0.4之间,8gpu相比较你的4gpu来说学习率增倍,test:IMS_PER_BATCH和solver:IMS_PER_BATCH都设置为8。MAX_ITER: 60000减半。用的也是你提供的8gpu的BASE_RCNN_8gpu.yaml 。但是最终训练出的模型测试map只有55.5% 这是为啥? 我又重新开了一个4GPU照着你的命令训练。

launchauto commented 4 years ago

想问下您的log.txt是什么样的?最后总Loss 0.3674是不是没收敛完?

launchauto commented 4 years ago

发现问题了。离线下载的预训练加载模型不成功。预训练模型应该是detectron 的msra pretrained r-101.pkl,不是detectron2 的msra pretrained r-101.pkl 。这两版本的预训练模型层的命名方式、参数设置等不一样。

launchauto commented 4 years ago

邮件联系作者,最后Loss在0.14左右。就是没收敛好