problem : deformable DETR은 deformable attention을 통해 쿼리가 주어졌을 때 key를 줄여주지만 multi-scale feature를 쓰기 때문에 encoder input의 토큰 개수가 20배가 되어 inference 속도는 오히려 느리다.
idea : 이미지에는 배경이 많고 salient한 object들만 attention이 들어가면 된다. encoder에 들어가는 token을 sparse하게 만들어보자!
architecture : deformable DETR인데 encoder에 들어가는 input의 objectness를 측정하는 score network를 만듦. 이때 score network는 1) backbone feature map에 detection head를 추가하여 auxiliary loss처럼 학습 또는 2) Decoder Attention Map(DAM): cross attention map에서 크게 잡힌 p%의 token을 1, 나머지를 0으로 둔 pseudo-label로 학습 할 수 있음.
objective : DETR loss + encoder에도 detection head 넣어서 auxiliary loss 추가
paper, code
TL;DR
Details
Architecture overall
Detection result
selection criteria
ablation of num encoder layer
encoder layer 12는 auxilary loss 없이는 학습이 안됨