sample_length between images (e.g. CrowdHuman) and video sequences (e.g. DanceTrack)

你好，感谢开源这份工作！使用过程中，我这边有很多图片数据，但是没什么视频数据，因此我用 add_crowd 的方法像添加 CrowdHuman 数据一样将我的图片数据添加进去，我将图片采样数设置为 2 节约训练时间，视频采样数设置为 10 以保持多样性。但是推理的时候发现有超级多的重框现象（一个人身上出现了很多 box 坐标与得分几乎一模一样但 id 不同的框），请问作者有遇到过类似的现象吗？可能是哪里出了问题呢？

BingfengYan / CO-MOT

sample_length between images (e.g. CrowdHuman) and video sequences (e.g. DanceTrack) #18