与Co-DETR的对比与结合以及大规模预训练

Hi，感谢你的提问，这两个问题真是问到关键点上了！

第一个问题

我们自己并没有试过Co-DETR和relation的结合，主要是Co--ETR本身结合FastrRCNN和ATSS就已经比较复杂了。我更倾向于将Co-DETR作为一个成熟的sota方法，而不是一个更好的baseline。
另外RelationDETR是在我自己构建的一套框架中实现的，为了将relation与其他方法结合，需要重新整理实现其他方法的代码。本身我还有科研任务，可能没时间去一一尝试将relation与各种方法结合，尤其是像Co-DETR这种特别复杂的方法。
后续我出一个文档，说明如何将我们的方法与现有模型结合，就像DN-DETR提出的denoising机制那样，欢迎有兴趣的研究者自己探索我们的方法是否对Co-DETR有效！

第二个问题，其实我有想过冲一冲COCO-leaderboard，看看RelationDETR到底性能咋样，奈何组里只有8张3090+2张A800，实在没法跑O365预训练🤣我手头有一个结果可以供你参考：

如果强行加载DINO-FocalLarge在O365上开源的权重（只能加载一部分匹配的权重），微调COCO 12轮可以达到62.1.

显然这只是个次优结果，如果能够和Co DETR保持相同的实验条件：

完整在O365上做预训练
用EVA02/VIT而不是FocalLarge做backbone
加大输入的尺寸和数据增强
加大COCO微调的轮次

我觉得是有机会达到和Co DETR接近的AP的。

除了性能，我们的优势在于其简单通用，没有在DINO上引入太多代码处理，很适合作为一个更好的baseline去进行更多扩充，例如引入rank-detr中的排序机制、ms-detr中基于阈值的一对多匹配，甚至也可以仿照CoDETR将FasterRCNN和ATSS模块引入进来。换言之他应该是有进一步的提升潜力。

xiuqhou / Relation-DETR

与Co-DETR的对比与结合以及大规模预训练 #1

Question

补充信息