BingfengYan / CO-MOT

CO-MOT: Bridging the Gap Between End-to-end and Non-End-to-end Multi-Object Tracking
63 stars 4 forks source link

sample_length between images (e.g. CrowdHuman) and video sequences (e.g. DanceTrack) #18

Closed yarkable closed 1 month ago

yarkable commented 2 months ago

你好,感谢开源这份工作! 使用过程中,我这边有很多图片数据,但是没什么视频数据,因此我用 add_crowd 的方法像添加 CrowdHuman 数据一样将我的图片数据添加进去,我将图片采样数设置为 2 节约训练时间,视频采样数设置为 10 以保持多样性。但是推理的时候发现有超级多的重框现象(一个人身上出现了很多 box 坐标与得分几乎一模一样但 id 不同的框),请问作者有遇到过类似的现象吗?可能是哪里出了问题呢?