512x512 Model - Githubissues

VDIGPKU / M2Det

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network

MIT License

1.45k stars 318 forks source link

512x512 Model #5

Closed WangTianYuan closed 5 years ago

WangTianYuan commented 5 years ago

你好，我想问一下，对512的分辨率，TUM的结构是怎么样的？对于320的分辨率，是用的5个下采样，那么对512，是6个下采样吗？如果是，那么对于最后两个下采样4→2，2→1，用的还是(k=3, s=2, p=1)的卷积结构么？

qijiezhao commented 5 years ago

我们对于300，512都用的5个下采样，即一共6个feature map。

WangTianYuan commented 5 years ago

@qijiezhao 好，我去试试

WangTianYuan commented 5 years ago

@qijiezhao 你好，我训练了320分辨率的M2网络，参数和结果如下： VOC：lr:2e-3, batch_size:32, GPU:2个, epoch:300, 学习率在150，200，250个epoch衰减0.1, 结果：80.47% COCO：lr:2e-3, batch_size:128, GPU:8个, epoch:150, 学习率在前5个epoch warmup, 然后在90，120，140个epoch衰减0.1, 结果：26.7% 请问为什么在COCO上效果这么差？我是按照论文里的方式训练的，还是说有别的什么地方需要调整？

qijiezhao commented 5 years ago

如果模型没有什么问题的话，你应该加大lr，因为batch size128已经很大了，建议init_lr设为0.005~0.01，然后依次衰减0.1。但是我感觉这个影响应该没有那么大，因为你至少掉了7个点。你检查一下代码呢？

WangTianYuan commented 5 years ago

VOC和COCO代码没有变动呀，而且测试这块用的是SSD的，那边测试效果也没问题，我先试试学习率看看

WangTianYuan commented 5 years ago

@qijiezhao 你好，我想请教一下COCO数据集结果的表格上，多尺度表示的是测试的时候把输入图像变成多尺度对吗？请问要怎么实现？我在好多个git项目上都没有找到

xuezu29 commented 5 years ago

@qijiezhao 您好，我想问下第一个TUM的输入来自FFMv1，而FFMv1的输出filter是768，也就是说第一个TUM的输入的filter是768，而其他的TUM是来自上一个的TUM，那么其他TUM的输入filter是256。是这样么？

MenGuangwen-CN-0411 commented 5 years ago

@WangTianYuan ,麻烦问下，你训练了多少个epoch在coco数据集上？达到了论文的效果了么？

WangTianYuan commented 5 years ago

@MenGuangwen-CN-0411 我按照作者这次给出的代码重新训练了，也是160个epoch，vgg几乎可以达到论文的效果，相差0.2%，res101可以达到论文的效果

MenGuangwen-CN-0411 commented 5 years ago

@WangTianYuan 非常感谢你的回复