Sequence Predictor部分是自回归还是非自回归？

CASIA-IVA-Lab / Obj2Seq

Obj2Seq: Formatting Objects as Sequences with Class Prompt for Visual Tasks (NeurIPS2022)

Other

84 stars 10 forks source link

您好，非常感谢对我们工作的关注和认可。

以检测为例，Obj2Seq确实是顺序依次输出x,y,w,h，在head中您可以找到对应的for循环语句。至于速度，我们的模型不会比其他模型慢很多，主要原因有二：（1）Obj2Seq仅在predictor处执行顺序输出，仅涉及一层self-attention，这一部分较为轻量。模型的其他部分均为并行执行。（2）Obj2Seq回归序列长度较短，检测输出序列长度为4。即每个物体的x,y,w,h串行输出，而不同物体对应的输出序列会并行推理。
我们在定义位姿估计的输出序列时将检测框与关键点位置均包括在内，具体而言输出序列首先检测人的检测框，而后相对检测框预测关键点。除此之外，Obj2Seq和DETR均也可以在不进行目标检测的情况下直接执行位姿估计任务，需要对predictor和loss进行修改。目前有其他相关工作（POET）进行过类似尝试。

希望我的回答可以解决您的疑惑。

CASIA-IVA-Lab / Obj2Seq