exiawsh / StreamPETR

[ICCV 2023] StreamPETR: Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection
Other
567 stars 64 forks source link

关于论文名Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection #223

Open Amireux52 opened 1 month ago

Amireux52 commented 1 month ago

您好,请问为什么是以Object-Centric的目标检测方法呢,文中将其与BEV时序以及perspective时序进行了比较,不过没有琢磨明白什么叫做以Object-Centric的目标检测呢?盼复,谢谢

Zoe-Wan commented 11 hours ago

我的理解是Object-Centric就是关注每个object在时序中的变化吧,所以用历史的object feature对做query。 BEV方法(例如videobev)只是单纯把历史帧的特征concat或者propagate到当前帧中,考虑到BEV的特征图不是每一块/像素都含有有助于3d检测的语义的,所以存在冗余信息,并且计算量比较多。 然后perspective(例如petr v2)的方法也是一样,在设计query的时候并没有考虑历史信息。它的时序部分在于考虑了ego车辆运动导致的3d坐标系偏移(也就是这篇文章里提到的MLN);以及在当前帧的query也和历史perspective feature进行交叉注意力运算。虽然可能这里的query用了某些方法使其变得稀疏(具体去看petr v2)但是由于要一直保存历史perspective的featrue(重复内容多),在长时间的情况下开销大。(虽然也不见得,因为论文中petrv2的实验好像也就考虑了两帧,但是如果考虑得更多那么确实开销很大) object centrc就是从object的角度来使用这个时序信息,即 不保存历史的perspective feature,而是保存历史object feature。使用历史的object featrue来指导当前帧query的生成。当然,每帧肯定还会有新object被识别,因此除了依历史object生成的query之外还需要和普通识别那样初始化新的query(就是论文里的initial query)。

Zoe-Wan commented 11 hours ago

另外,baidu在nips23上发过一篇很类似的工作,你可以看看https://proceedings.neurips.cc/paper_files/paper/2023/file/ef0dcb44a47185f5bacac62571f6e920-Paper-Conference.pdf (虽然这篇还引入了点云信息)

Zoe-Wan commented 11 hours ago

另外,baidu在nips23上发过一篇很类似的工作,你可以看看https://proceedings.neurips.cc/paper_files/paper/2023/file/ef0dcb44a47185f5bacac62571f6e920-Paper-Conference.pdf (虽然这篇还引入了点云信息)

(虽然他们俩好像互相没有引用对方。。。)