long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[67] Deformable DETR: Deformable Transformers for End-to-End Object Detection #73

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper, code

TL;DR

Details

image

Deformable Attention Module

image image

Multi-scale Deformable Attention Module

image

Deformable Transformer Encoder

Deformable Transformer Decoder

Additional Improvements and Variants for deformable DETR

Iterative Bounding Box Refinement

(d - 1)번째 레이어의 bbox 예측값을 가지고 d번째 레이어의 bbox 예측을 refine하는 과정이 필요 image

initial 값은 x, y는 reference point, qw, wh = 0.1로 설정했다. (d - 1)번째 레이어의 bbox 중앙 좌표가 d번째 레이어의 reference point가 되는 형태임. box size도 역시 $\Delta$를 사용해서 같이 가도록 함 $sigma^{(-1)}$부분은 gradient 안흐르게 함.

Two-Stage Deformable DETR

원래의 detr은 object query가 이미지랑 전혀 상관없는 걸 봄. region proposal을 먼저 하고 이를 object query로 던져주는 방식! region proposal은 deformable DETR의 encoder만 사용하고 모든 픽셀에 대한 feature가 object query가 되어 bbox를 예측한다. => Hungarian Loss로 학습 됨. top scored 된 bbox들은 뽑혀서 DETR decoder의 iterative bounding box refinement의 초기값으로 사용되고 그 coordinate들의 PE가 object query로 던져진다.

image

Result

image image

Training details