issues
search
AtsukiOsanai
/
cv_survey
Personal repository for computer vision survey
2
stars
0
forks
source link
End-to-End Object Detection with Transformers
#102
Open
AtsukiOsanai
opened
1 year ago
AtsukiOsanai
commented
1 year ago
End-to-End Object Detection with Transformers
Information
Authors:
Organization:
Paper:
https://arxiv.org/abs/2005.12872
Code:
https://github.com/facebookresearch/detr
Conference/Journal:
Summary
サマリ図表
どんな論文か?
新規性
結果
Ablation Study
ResNetのLast blockをDilated Convにして、resolutionをx2にすると小さいobjectの検出精度が上がる
ただし、EncoderのSAの計算量がx16となる((2h x 2w, c) x (c, 2h, 2w) = 16 x (hw, hw))
positional encoding (Table3)
encoder/decoderにsinusoidalを全てのSA blockに, output decoderの全てのAttention Blockにobject queryを入れるのがベスト
encoder/decoderのpos embを抜いてもそこそこ精度が出るのが驚き
object queryはそれぞれどの位置のbboxを検出するかを役割分担している(Fig.7)
Loss
GIoU Lossの重要度が高い
その他(なぜ通ったか?など)
End-to-End Object Detection with Transformers
Information
Summary
サマリ図表
どんな論文か?
新規性
結果
その他(なぜ通ったか?など)