Closed czy341181 closed 1 year ago
It seems that MOTRv3 allocates GT to all queries(including detect query and track query), not just detect query. They remove the assignment of track query, right?
Our starting point is consistent with MOTRv3, and there are even some similarities in the solutions. I haven't read MOTRv3 carefully, so let me just talk about our method:
If you have any questions, feel free to discuss them in depth.
thanks for reply. Best!
Hi, i have another question.
I feel that the improvement of label assignment can solve the problem of insufficient detection query training, as demonstrated by the b and c experiments in Figure 2 of the paper. But my problem is that Experiment a and Experiment b indicate that the detection query has actually been trained to effectively solve the detection problem (with a significant improvement). The larger problem is that track query suppresses the detection of the detection query. How did this solve? Can only the label assignment solve this problem?
怕表述不清楚,我想直接用中文问一下, 感觉label assignment的改进可以解决detect query训练不充分的问题,也就是论文figure2中b,c实验所证明的。 但是我的问题是实验a,b却说明detect query其实训练的已经能够很好的解决检测问题(提升很大),更大的问题在track query会抑制掉detect query的检测,这个是如何解决的? 只改变label assignment也能解决这个问题吗?
是的。这个我们也做了深入分析。1. 在mAP指标上看,label assignment可以让检测query效果更好。但是在跟踪指标DetA上好像不能直接反应到检测上来,我们后边用mAP评测了一下,加了label assignment,mAP是有不错的提升的。2. 对于跟踪来说的确是因为track query抑制了detect query,导致跟踪效果差。通过后边实验,我们是发现是label assignment通过影响detect query,然后通过attention进而提升跟踪指标的。
感谢回复,我的理解是
请教作者我的理解是否有误,还希望能指点一下
是的,理解的非常对
假如想基于这个做一些深入研究发表论文,可以随时交流。我目前有两个可以改进的点:1. 有了COLA,实际上所有和检测相关的都可以照搬到跟踪上来,但这个没啥技术含量,水论文可以。2. shadow的概念实际上是可以应用到很多地方,比如做多摄像头多目标跟踪,每个摄像头下的同一个目标实际是一个shadow。感觉这个点可以做出一套多摄像头跟踪的E2E文章。不管在学术还是实际使用都有不错的价值。
感谢指点🙏🙏
在实测中,发现密集人群有互相遮挡的视频,在开始几帧检测跟踪框都还挺多的,但随着时间序列的增多,画面上的被跟踪到的人框变少了,跟踪效果下降很快;这个是什么原因呢?感觉没有达到论文所说的通过COLA分配策略解决互相影响导致的跟踪性能下降的这个普遍问题
MOTRV3没有开源,MOTRV3似乎多了一个使用额外的检测器生成的GT对检测query的训练,也许是MOTRV3数据更好一点点的原因?
在实测中,发现密集人群有互相遮挡的视频,在开始几帧检测跟踪框都还挺多的,但随着时间序列的增多,画面上的被跟踪到的人框变少了,跟踪效果下降很快;这个是什么原因呢?感觉没有达到论文所说的通过COLA分配策略解决互相影响导致的跟踪性能下降的这个普遍问题
是的。这个需要正对性的添加数据才行。
MOTRV3没有开源,MOTRV3似乎多了一个使用额外的检测器生成的GT对检测query的训练,也许是MOTRV3数据更好一点点的原因?
后边我看了一下MOTRv3,实际上假如使用同等计算量他没有我们的效果好,可以看他的附页。MOTRv3里使用了SWI N,而不是resnet50
检测跟踪框都还挺多的,但随着时间序列的增多
您好,我也遇到了相同的问题(类似MOT17的场景)——视频开始时框很多,但是到后面越来越少(甚至有一帧中几十个目标都很显著,但是只有一个框的情况),MOTA非常低。但是用同样的设置在MOTR上训练、测试,效果要比CO-MOT好很多(MOTA和IDF1都高很多),想请教您这有可能是什么原因呢?理论上看您的改进相较于MOTR应该是很显著的,这个问题困扰了我很长时间。衷心感谢您的帮助!!
检测跟踪框都还挺多的,但随着时间序列的增多
您好,我也遇到了相同的问题(类似MOT17的场景)——视频开始时框很多,但是到后面越来越少(甚至有一帧中几十个目标都很显著,但是只有一个框的情况),MOTA非常低。但是用同样的设置在MOTR上训练、测试,效果要比CO-MOT好很多(MOTA和IDF1都高很多),想请教您这有可能是什么原因呢?理论上看您的改进相较于MOTR应该是很显著的,这个问题困扰了我很长时间。衷心感谢您的帮助!!
这个问题,我没有遇到过。像是没有训好,或者可以试着增加sampler_lengths。MOT17吗?我release了我们的权重,你可以参考一下
检测跟踪框都还挺多的,但随着时间序列的增多
您好,我也遇到了相同的问题(类似MOT17的场景)——视频开始时框很多,但是到后面越来越少(甚至有一帧中几十个目标都很显著,但是只有一个框的情况),MOTA非常低。但是用同样的设置在MOTR上训练、测试,效果要比CO-MOT好很多(MOTA和IDF1都高很多),想请教您这有可能是什么原因呢?理论上看您的改进相较于MOTR应该是很显著的,这个问题困扰了我很长时间。衷心感谢您的帮助!!
这个问题,我没有遇到过。像是没有训好,或者可以试着增加sampler_lengths。MOT17吗?我release了我们的权重,你可以参考一下
嗯嗯好的,我再检查一下,感谢您的回复!!
有结论,欢迎留言分享
hi, bingfeng! thanks for your great work. After reading your paper, label assignment of the motivation is consistent with MOTRv3. And I know any differences in implementation details in MOTRv3, which leading performance gap?