xiuqhou / Relation-DETR

[ECCV2024 Oral] Official implementation of the paper "Relation DETR: Exploring Explicit Position Relation Prior for Object Detection"
Apache License 2.0
134 stars 11 forks source link

与Co-DETR的对比与结合以及大规模预训练 #1

Open Artificial-Inability opened 4 months ago

Artificial-Inability commented 4 months ago

Question

您好,感谢您出色的工作!Relation DETR和Co DETR都是可以在DINO的基础上通过加入即插即用的模块提升较多性能,COCO 1x性能分别能达到51.7和52.1,请问你们有尝试过在Co DETR的框架基础上加入你们提出的模块吗,性能是否有进一步提升呢? 另一个问题是论文中仅提供了r50和swinL直接在COCO上训练的性能,Co-DETR使用VitL主干经过大规模预训练后在COCO上能达到66.0的性能,你们是否做了大规模预训练(如Obj365)后再在COCO上训练的实验或者用更大的主干训练的实验呢,性能怎么样?

补充信息

No response

xiuqhou commented 4 months ago

Hi,感谢你的提问,这两个问题真是问到关键点上了!

第一个问题

  1. 我们自己并没有试过Co-DETR和relation的结合,主要是Co--ETR本身结合FastrRCNN和ATSS就已经比较复杂了。我更倾向于将Co-DETR作为一个成熟的sota方法,而不是一个更好的baseline。
  2. 另外RelationDETR是在我自己构建的一套框架中实现的,为了将relation与其他方法结合,需要重新整理实现其他方法的代码。本身我还有科研任务,可能没时间去一一尝试将relation与各种方法结合,尤其是像Co-DETR这种特别复杂的方法。
  3. 后续我出一个文档,说明如何将我们的方法与现有模型结合,就像DN-DETR提出的denoising机制那样,欢迎有兴趣的研究者自己探索我们的方法是否对Co-DETR有效!

第二个问题,其实我有想过冲一冲COCO-leaderboard,看看RelationDETR到底性能咋样,奈何组里只有8张3090+2张A800,实在没法跑O365预训练🤣我手头有一个结果可以供你参考:

显然这只是个次优结果,如果能够和Co DETR保持相同的实验条件:

我觉得是有机会达到和Co DETR接近的AP的。

除了性能,我们的优势在于其简单通用,没有在DINO上引入太多代码处理,很适合作为一个更好的baseline去进行更多扩充,例如引入rank-detr中的排序机制、ms-detr中基于阈值的一对多匹配,甚至也可以仿照CoDETR将FasterRCNN和ATSS模块引入进来。换言之他应该是有进一步的提升潜力。