BingfengYan / CO-MOT

CO-MOT: Bridging the Gap Between End-to-end and Non-End-to-end Multi-Object Tracking
63 stars 4 forks source link

difference of MOTRv3 ? #2

Closed czy341181 closed 1 year ago

czy341181 commented 1 year ago

hi, bingfeng! thanks for your great work. After reading your paper, label assignment of the motivation is consistent with MOTRv3. And I know any differences in implementation details in MOTRv3, which leading performance gap?

czy341181 commented 1 year ago

It seems that MOTRv3 allocates GT to all queries(including detect query and track query), not just detect query. They remove the assignment of track query, right?

fengxiuyaun commented 1 year ago

Our starting point is consistent with MOTRv3, and there are even some similarities in the solutions. I haven't read MOTRv3 carefully, so let me just talk about our method:

  1. Introducing COLA, which is actually matching all GTs instead of newborns for detect query;
  2. Introducing SetShadow, which matches not only one query but a group of queries for the same target.

If you have any questions, feel free to discuss them in depth.

czy341181 commented 1 year ago

thanks for reply. Best!

czy341181 commented 1 year ago

Hi, i have another question.

I feel that the improvement of label assignment can solve the problem of insufficient detection query training, as demonstrated by the b and c experiments in Figure 2 of the paper. But my problem is that Experiment a and Experiment b indicate that the detection query has actually been trained to effectively solve the detection problem (with a significant improvement). The larger problem is that track query suppresses the detection of the detection query. How did this solve? Can only the label assignment solve this problem?

czy341181 commented 1 year ago

怕表述不清楚,我想直接用中文问一下, 感觉label assignment的改进可以解决detect query训练不充分的问题,也就是论文figure2中b,c实验所证明的。 但是我的问题是实验a,b却说明detect query其实训练的已经能够很好的解决检测问题(提升很大),更大的问题在track query会抑制掉detect query的检测,这个是如何解决的? 只改变label assignment也能解决这个问题吗?

fengxiuyaun commented 1 year ago

是的。这个我们也做了深入分析。1. 在mAP指标上看,label assignment可以让检测query效果更好。但是在跟踪指标DetA上好像不能直接反应到检测上来,我们后边用mAP评测了一下,加了label assignment,mAP是有不错的提升的。2. 对于跟踪来说的确是因为track query抑制了detect query,导致跟踪效果差。通过后边实验,我们是发现是label assignment通过影响detect query,然后通过attention进而提升跟踪指标的。

czy341181 commented 1 year ago

感谢回复,我的理解是

  1. 通过label assignment的改进,首先detect query训练的更充分了,mAP肯定会有提升,这个应该没有问题。
  2. 比如论文中figure1那些漏检的目标,是因为track query的抑制,导致detect query也不能很好的检测这些漏检的目标。但是通过引入label assignment的学习,使得这个detect query在attention过程中也能够聚焦到这个漏检目标的特征,从而能检测出图中的这些漏检。(MOTRv2是通过proposal初始化来达到这个效果的) 所以我觉得label assignment的改进也能缓解figure2中实验a,b的现象,即这个实验a,b的gap很大部分是由于漏检导致的?

请教作者我的理解是否有误,还希望能指点一下

fengxiuyaun commented 1 year ago

是的,理解的非常对

fengxiuyaun commented 1 year ago

假如想基于这个做一些深入研究发表论文,可以随时交流。我目前有两个可以改进的点:1. 有了COLA,实际上所有和检测相关的都可以照搬到跟踪上来,但这个没啥技术含量,水论文可以。2. shadow的概念实际上是可以应用到很多地方,比如做多摄像头多目标跟踪,每个摄像头下的同一个目标实际是一个shadow。感觉这个点可以做出一套多摄像头跟踪的E2E文章。不管在学术还是实际使用都有不错的价值。

czy341181 commented 1 year ago

感谢指点🙏🙏

robotseye commented 1 year ago

在实测中,发现密集人群有互相遮挡的视频,在开始几帧检测跟踪框都还挺多的,但随着时间序列的增多,画面上的被跟踪到的人框变少了,跟踪效果下降很快;这个是什么原因呢?感觉没有达到论文所说的通过COLA分配策略解决互相影响导致的跟踪性能下降的这个普遍问题

robotseye commented 1 year ago

MOTRV3没有开源,MOTRV3似乎多了一个使用额外的检测器生成的GT对检测query的训练,也许是MOTRV3数据更好一点点的原因?

fengxiuyaun commented 1 year ago

在实测中,发现密集人群有互相遮挡的视频,在开始几帧检测跟踪框都还挺多的,但随着时间序列的增多,画面上的被跟踪到的人框变少了,跟踪效果下降很快;这个是什么原因呢?感觉没有达到论文所说的通过COLA分配策略解决互相影响导致的跟踪性能下降的这个普遍问题

是的。这个需要正对性的添加数据才行。

fengxiuyaun commented 1 year ago

MOTRV3没有开源,MOTRV3似乎多了一个使用额外的检测器生成的GT对检测query的训练,也许是MOTRV3数据更好一点点的原因?

后边我看了一下MOTRv3,实际上假如使用同等计算量他没有我们的效果好,可以看他的附页。MOTRv3里使用了SWI N,而不是resnet50

lebron-2016 commented 8 months ago

检测跟踪框都还挺多的,但随着时间序列的增多

您好,我也遇到了相同的问题(类似MOT17的场景)——视频开始时框很多,但是到后面越来越少(甚至有一帧中几十个目标都很显著,但是只有一个框的情况),MOTA非常低。但是用同样的设置在MOTR上训练、测试,效果要比CO-MOT好很多(MOTA和IDF1都高很多),想请教您这有可能是什么原因呢?理论上看您的改进相较于MOTR应该是很显著的,这个问题困扰了我很长时间。衷心感谢您的帮助!!

fengxiuyaun commented 8 months ago

检测跟踪框都还挺多的,但随着时间序列的增多

您好,我也遇到了相同的问题(类似MOT17的场景)——视频开始时框很多,但是到后面越来越少(甚至有一帧中几十个目标都很显著,但是只有一个框的情况),MOTA非常低。但是用同样的设置在MOTR上训练、测试,效果要比CO-MOT好很多(MOTA和IDF1都高很多),想请教您这有可能是什么原因呢?理论上看您的改进相较于MOTR应该是很显著的,这个问题困扰了我很长时间。衷心感谢您的帮助!!

这个问题,我没有遇到过。像是没有训好,或者可以试着增加sampler_lengths。MOT17吗?我release了我们的权重,你可以参考一下

lebron-2016 commented 8 months ago

检测跟踪框都还挺多的,但随着时间序列的增多

您好,我也遇到了相同的问题(类似MOT17的场景)——视频开始时框很多,但是到后面越来越少(甚至有一帧中几十个目标都很显著,但是只有一个框的情况),MOTA非常低。但是用同样的设置在MOTR上训练、测试,效果要比CO-MOT好很多(MOTA和IDF1都高很多),想请教您这有可能是什么原因呢?理论上看您的改进相较于MOTR应该是很显著的,这个问题困扰了我很长时间。衷心感谢您的帮助!!

这个问题,我没有遇到过。像是没有训好,或者可以试着增加sampler_lengths。MOT17吗?我release了我们的权重,你可以参考一下

嗯嗯好的,我再检查一下,感谢您的回复!!

fengxiuyaun commented 8 months ago

有结论,欢迎留言分享