Open Cuviews opened 3 months ago
Hi,很高兴您打算将RelationDETR扩展到视频领域。我对视频检测/跟踪的任务并不是很了解,下面是一些我觉得可能存在问题的地方和调试建议,仅供参考。
您好,我发现您把nestedtensor包括别的预处理拆分了,eval的transform放在模型的最开始,这样做是为什么,非常感谢!!
Hi,很高兴你对这部分有疑问,我们确实是经过考虑后才选择不用nestedtensor,以及选择将eval_transform集成到模型。
torchvision.models.detection.faster_rcnn
,他就是将预处理集成到模型中了。集成后推理过程非常简单,您可以看inference.ipynb中图片读取到输入模型的部分。
Question
您好,我想基于relation detr做一些视频的任务,对你的框架上做了一些更改,数据加载更换成了cocoVID,帧作为bs,target只读1帧,目前模型方面使用encoder对多帧建模,decoder还是单帧,训练loss下降正常,测试都正常,可是ap全为0,可能某些关键的接口可能不太适配?请问有哪些需要注意的地方吗,非常感谢!!
补充信息
No response