YueFan1014 / VideoAgent

This is the official code of VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding (ECCV 2024)
Apache License 2.0
97 stars 5 forks source link

我有几个问题想请教 #6

Closed YanhuiS closed 3 weeks ago

YanhuiS commented 3 weeks ago

对您的工作很感兴趣,非常感谢您的伟大工作,现有几个问题向您请教,希望得到您的回复!

  1. 为什么Reid.py中在硬限制函数中将 两个轨迹的类别必须相同的限制删除了?
  2. CLIP 和 DINOv2 以及 sim(i,j)中存在很多参数,请问能具体讲讲是怎么网格搜索的嘛?在不同参数在验证集上的结果比较?这么多参数怎么同时网格搜索呀? image
  3. 在跟踪算法部分有没有考虑其他跟踪算法,不用跟踪之后再合并的跟踪算法,这里是否有什么实验尝试呢?
YueFan1014 commented 3 weeks ago

你好,感谢关注我们的工作!

  1. 因为有时候detector在不同视角下会将同一个物体识别成不同类别,如果使用硬限制函数将失去对这类物体重识别的可能。
  2. 我们主要搜索的参数是sim(i, j)中的两种特征相似度的集成比例,以及Algorithm 3中的sim(i, j)的阈值。CLIP(i, j)和DINOv2(i, j)中的参数作用是将两种分值的分布统一。
  3. 我们尝试过一些最新的自带物体重识别的物体跟踪工作,但效果欠佳。目前对于长视频中物体的追踪和重新识别仍然有很大的提升空间。如果你有一些适合的物体追踪或者重识别算法欢迎推荐!

hello, thanks for your interest in our work!

  1. Sometimes the detector categories the same object differently under different views. If we use the hard constraint on the object category for re-ID, we will fail to re-identify the objects that have multiple categories.
  2. We mainly Grid-Search the ensemble weights in sim(i, j) and the threshold of sim(i, j) in Algorithm 3. The parameters in CLIP(i, j) and DINOv2(i, j) are used to transform them into the same distribution.
  3. We have tried some recent MoT & Re-ID work, but the performances are not very satisfied. The robust multi-object tracking and Re-ID methods on long-form video are still awaits exploration. If you have some good MoT & Re-ID methods, feel free to recommend them here!
YanhuiS commented 3 weeks ago

感谢您的回复,我还有几个不清楚的想向您请教,

  1. 针对不同类别最后合并成同一个轨迹,但我看代码您好像就直接选择了其中一个轨迹的类别?其实这个类别的对后续没很大影响是吧?
  2. 网格搜索您提到的四个参数,是比较不同参数在验证集上的性能进行筛选的吗?CLIP(i, j)和DINOv2(i, j)我看您描述后的理解是,找一个变换让两种embedding的分布类似,这个变换是怎么找的呀?
  3. 请问您尝试过什么自带物体重识别的物体跟踪工作呀?感觉物体跟踪的难点是物体太小了不好跟踪?您认为还有什么难点呢?
YueFan1014 commented 3 weeks ago

你好,

  1. 是的,物体类别其实并不是特别重要,主要用于SQL查询。除此之外,使用CLIP feature也能够实现开放词表物体ID召回。
  2. 我们是在EgoObjects上选取了91个类别,共910个物体构建了re-ID测试集,通过性能筛选得到的参数。CLIP(i, j)与DINOv2(i, j)中的参数主要通过物体与物体之间的特征分数的均值和方差决定。
  3. 我们尝试过MASA。难点主要在于物体重识别, 也即在长视频中,当物体失去追踪并且重新出现时能否将其与过去的物体ID对应起来。
YanhuiS commented 3 weeks ago

好的好的,很感谢您的回答!