VDIGPKU / M2Det

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network
MIT License
1.45k stars 318 forks source link

512x512 Model #5

Closed WangTianYuan closed 5 years ago

WangTianYuan commented 5 years ago

你好,我想问一下,对512的分辨率,TUM的结构是怎么样的? 对于320的分辨率,是用的5个下采样,那么对512,是6个下采样吗? 如果是,那么对于最后两个下采样4→2,2→1,用的还是(k=3, s=2, p=1)的卷积结构么?

qijiezhao commented 5 years ago

我们对于300,512都用的5个下采样,即一共6个feature map。

WangTianYuan commented 5 years ago

@qijiezhao 好,我去试试

WangTianYuan commented 5 years ago

@qijiezhao 你好,我训练了320分辨率的M2网络,参数和结果如下: VOC:lr:2e-3, batch_size:32, GPU:2个, epoch:300, 学习率在150,200,250个epoch衰减0.1, 结果:80.47% COCO:lr:2e-3, batch_size:128, GPU:8个, epoch:150, 学习率在前5个epoch warmup, 然后在90,120,140个epoch衰减0.1, 结果:26.7% 请问为什么在COCO上效果这么差?我是按照论文里的方式训练的,还是说有别的什么地方需要调整?

qijiezhao commented 5 years ago

如果模型没有什么问题的话,你应该加大lr,因为batch size128已经很大了,建议init_lr设为0.005~0.01,然后依次衰减0.1。 但是我感觉这个影响应该没有那么大,因为你至少掉了7个点。你检查一下代码呢?

WangTianYuan commented 5 years ago

VOC和COCO代码没有变动呀,而且测试这块用的是SSD的,那边测试效果也没问题,我先试试学习率看看

WangTianYuan commented 5 years ago

@qijiezhao 你好,我想请教一下COCO数据集结果的表格上,多尺度表示的是测试的时候把输入图像变成多尺度对吗?请问要怎么实现?我在好多个git项目上都没有找到

xuezu29 commented 5 years ago

@qijiezhao 您好,我想问下第一个TUM的输入来自FFMv1,而FFMv1的输出filter是768,也就是说第一个TUM的输入的filter是768,而其他的TUM是来自上一个的TUM,那么其他TUM的输入filter是256。是这样么?

MenGuangwen-CN-0411 commented 5 years ago

@WangTianYuan ,麻烦问下,你训练了多少个epoch在coco数据集上?达到了论文的效果了么?

WangTianYuan commented 5 years ago

@MenGuangwen-CN-0411 我按照作者这次给出的代码重新训练了,也是160个epoch,vgg几乎可以达到论文的效果,相差0.2%,res101可以达到论文的效果

MenGuangwen-CN-0411 commented 5 years ago

@WangTianYuan 非常感谢你的回复