difference of MOTRv3 ? - Githubissues

czy341181 commented 1 year ago

hi, bingfeng! thanks for your great work. After reading your paper, label assignment of the motivation is consistent with MOTRv3. And I know any differences in implementation details in MOTRv3, which leading performance gap?

czy341181 commented 1 year ago

It seems that MOTRv3 allocates GT to all queries(including detect query and track query), not just detect query. They remove the assignment of track query, right?

fengxiuyaun commented 1 year ago

Our starting point is consistent with MOTRv3, and there are even some similarities in the solutions. I haven't read MOTRv3 carefully, so let me just talk about our method:

Introducing COLA, which is actually matching all GTs instead of newborns for detect query;
Introducing SetShadow, which matches not only one query but a group of queries for the same target.

If you have any questions, feel free to discuss them in depth.

czy341181 commented 1 year ago

thanks for reply. Best!

czy341181 commented 1 year ago

Hi， i have another question.

I feel that the improvement of label assignment can solve the problem of insufficient detection query training, as demonstrated by the b and c experiments in Figure 2 of the paper. But my problem is that Experiment a and Experiment b indicate that the detection query has actually been trained to effectively solve the detection problem (with a significant improvement). The larger problem is that track query suppresses the detection of the detection query. How did this solve? Can only the label assignment solve this problem?

czy341181 commented 1 year ago

怕表述不清楚，我想直接用中文问一下，感觉label assignment的改进可以解决detect query训练不充分的问题，也就是论文figure2中b,c实验所证明的。但是我的问题是实验a,b却说明detect query其实训练的已经能够很好的解决检测问题（提升很大），更大的问题在track query会抑制掉detect query的检测，这个是如何解决的？只改变label assignment也能解决这个问题吗？

fengxiuyaun commented 1 year ago

是的。这个我们也做了深入分析。1. 在mAP指标上看，label assignment可以让检测query效果更好。但是在跟踪指标DetA上好像不能直接反应到检测上来，我们后边用mAP评测了一下，加了label assignment，mAP是有不错的提升的。2. 对于跟踪来说的确是因为track query抑制了detect query，导致跟踪效果差。通过后边实验，我们是发现是label assignment通过影响detect query，然后通过attention进而提升跟踪指标的。

czy341181 commented 1 year ago

感谢回复，我的理解是

通过label assignment的改进，首先detect query训练的更充分了，mAP肯定会有提升，这个应该没有问题。
比如论文中figure1那些漏检的目标，是因为track query的抑制，导致detect query也不能很好的检测这些漏检的目标。但是通过引入label assignment的学习，使得这个detect query在attention过程中也能够聚焦到这个漏检目标的特征，从而能检测出图中的这些漏检。（MOTRv2是通过proposal初始化来达到这个效果的）所以我觉得label assignment的改进也能缓解figure2中实验a,b的现象，即这个实验a,b的gap很大部分是由于漏检导致的？

请教作者我的理解是否有误，还希望能指点一下

fengxiuyaun commented 1 year ago

是的，理解的非常对

fengxiuyaun commented 1 year ago

假如想基于这个做一些深入研究发表论文，可以随时交流。我目前有两个可以改进的点：1. 有了COLA，实际上所有和检测相关的都可以照搬到跟踪上来，但这个没啥技术含量，水论文可以。2. shadow的概念实际上是可以应用到很多地方，比如做多摄像头多目标跟踪，每个摄像头下的同一个目标实际是一个shadow。感觉这个点可以做出一套多摄像头跟踪的E2E文章。不管在学术还是实际使用都有不错的价值。

czy341181 commented 1 year ago

感谢指点🙏🙏

robotseye commented 1 year ago

在实测中，发现密集人群有互相遮挡的视频，在开始几帧检测跟踪框都还挺多的，但随着时间序列的增多，画面上的被跟踪到的人框变少了，跟踪效果下降很快；这个是什么原因呢？感觉没有达到论文所说的通过COLA分配策略解决互相影响导致的跟踪性能下降的这个普遍问题

robotseye commented 1 year ago

MOTRV3没有开源，MOTRV3似乎多了一个使用额外的检测器生成的GT对检测query的训练，也许是MOTRV3数据更好一点点的原因？

fengxiuyaun commented 1 year ago

在实测中，发现密集人群有互相遮挡的视频，在开始几帧检测跟踪框都还挺多的，但随着时间序列的增多，画面上的被跟踪到的人框变少了，跟踪效果下降很快；这个是什么原因呢？感觉没有达到论文所说的通过COLA分配策略解决互相影响导致的跟踪性能下降的这个普遍问题

是的。这个需要正对性的添加数据才行。

fengxiuyaun commented 1 year ago

MOTRV3没有开源，MOTRV3似乎多了一个使用额外的检测器生成的GT对检测query的训练，也许是MOTRV3数据更好一点点的原因？

后边我看了一下MOTRv3，实际上假如使用同等计算量他没有我们的效果好，可以看他的附页。MOTRv3里使用了SWI N，而不是resnet50

lebron-2016 commented 8 months ago

检测跟踪框都还挺多的，但随着时间序列的增多

您好，我也遇到了相同的问题（类似MOT17的场景）——视频开始时框很多，但是到后面越来越少（甚至有一帧中几十个目标都很显著，但是只有一个框的情况），MOTA非常低。但是用同样的设置在MOTR上训练、测试，效果要比CO-MOT好很多（MOTA和IDF1都高很多），想请教您这有可能是什么原因呢？理论上看您的改进相较于MOTR应该是很显著的，这个问题困扰了我很长时间。衷心感谢您的帮助！！

fengxiuyaun commented 8 months ago

检测跟踪框都还挺多的，但随着时间序列的增多

您好，我也遇到了相同的问题（类似MOT17的场景）——视频开始时框很多，但是到后面越来越少（甚至有一帧中几十个目标都很显著，但是只有一个框的情况），MOTA非常低。但是用同样的设置在MOTR上训练、测试，效果要比CO-MOT好很多（MOTA和IDF1都高很多），想请教您这有可能是什么原因呢？理论上看您的改进相较于MOTR应该是很显著的，这个问题困扰了我很长时间。衷心感谢您的帮助！！

这个问题，我没有遇到过。像是没有训好，或者可以试着增加sampler_lengths。MOT17吗？我release了我们的权重，你可以参考一下

lebron-2016 commented 8 months ago

检测跟踪框都还挺多的，但随着时间序列的增多

您好，我也遇到了相同的问题（类似MOT17的场景）——视频开始时框很多，但是到后面越来越少（甚至有一帧中几十个目标都很显著，但是只有一个框的情况），MOTA非常低。但是用同样的设置在MOTR上训练、测试，效果要比CO-MOT好很多（MOTA和IDF1都高很多），想请教您这有可能是什么原因呢？理论上看您的改进相较于MOTR应该是很显著的，这个问题困扰了我很长时间。衷心感谢您的帮助！！

这个问题，我没有遇到过。像是没有训好，或者可以试着增加sampler_lengths。MOT17吗？我release了我们的权重，你可以参考一下

嗯嗯好的，我再检查一下，感谢您的回复！！

fengxiuyaun commented 8 months ago

有结论，欢迎留言分享

BingfengYan / CO-MOT

difference of MOTRv3 ? #2