MIV-XJTU / ARTrack

Apache License 2.0
228 stars 33 forks source link

定位策略 #35

Closed oatlvv closed 7 months ago

oatlvv commented 8 months ago

作者你好,请问在ARTracke的定位过程中,依次推理出x_min, y_min, x_max, y_max时,为什么每次都以第二维度的最后一列来进行解码?还有就是为什么以最大概率对应的索引作为追踪结果?这是什么定位策略?

ARTrackV2 commented 8 months ago

第二维度的最后一列被规定为要预测的目标坐标,即在第一轮预测时(此时的输入为trajectory+start_token)他的预测目标是x_min,那么当他concat到decoder的query输入(trajectory+start_token+x_min)的时候,他在第二轮预测的目标就成为了y_min,以此类推,因此并不是只使用了最后一列,而是在每一个坐标的预测中,仅使用了其帧内时序上的上一个token作为了输入。 以最大概率索引作为结果即显式的构造贪心策略,您可以尝试使用我们在计算SIoU使用的期望来进行最终结果进行索引,那就是构造了一个连续的迪利克雷分布,这也符合我们的损失函数计算,您可以尝试不同的策略,如果您有更好的策略也欢迎您引用我们的文章!