CASIA-IVA-Lab / Obj2Seq

Obj2Seq: Formatting Objects as Sequences with Class Prompt for Visual Tasks (NeurIPS2022)
Other
84 stars 10 forks source link

Sequence Predictor部分是自回归还是非自回归? #1

Open njcx-ai opened 2 years ago

njcx-ai commented 2 years ago

您好,非常棒的文章,也非常感谢您的及时开源。对论文中的一些细节有些疑问想请教下作者:

  1. 如图2(c)所示,预测y坐标时需要x的输出作为输入的一部分,这里的Sequence Predictor是自回归吗? 若是自回归的话,其与DETR等模型非自回归的生成对比速度是否会降低很多呢?
  2. 图2(c)中的位姿估计任务是接在在目标检测后面做的吗?若不是的话,DETR是否也能既做目标检测也能位姿估计呢?
  3. 理解的不到位地方请您海涵,期待您的解惑。

volgachen commented 2 years ago

您好,非常感谢对我们工作的关注和认可。

  1. 以检测为例,Obj2Seq确实是顺序依次输出x,y,w,h,在head中您可以找到对应的for循环语句。至于速度,我们的模型不会比其他模型慢很多,主要原因有二: (1)Obj2Seq仅在predictor处执行顺序输出,仅涉及一层self-attention,这一部分较为轻量。模型的其他部分均为并行执行。 (2)Obj2Seq回归序列长度较短,检测输出序列长度为4。即每个物体的x,y,w,h串行输出,而不同物体对应的输出序列会并行推理。

  2. 我们在定义位姿估计的输出序列时将检测框与关键点位置均包括在内,具体而言输出序列首先检测人的检测框,而后相对检测框预测关键点。 除此之外,Obj2Seq和DETR均也可以在不进行目标检测的情况下直接执行位姿估计任务,需要对predictor和loss进行修改。目前有其他相关工作(POET)进行过类似尝试。

希望我的回答可以解决您的疑惑。

njcx-ai commented 2 years ago

谢谢分享解惑🙏