Open hyoseok1223 opened 2 years ago
[Review Link]
https://hyoseok-personality.tistory.com/entry/Paper-Review-DETR-End-to-End-Object-Detection-with-Transformers
기존의 Obejct Detection Methods들은 task에 대한 사전 지식을 고려한 hand-designed component들이 필요해 complex detection pipeline을 가지고 있는 indirect set prediction problem이었습니다. 저자들은 이에서 벗어나 object detection을 direct set prediction problem(image-to-set)으로 보고자 했습니다. 이를 위해 set matching을 위한 bipartite matching, hungarian algorithm같은 기존의 매칭 알고리즘을 Loss에 녹였고, image-to-set으로 direct set prediction에 sequnece-to-sequence( sequence set prediction이라는 표현이 적절하지 않지만 비슷한 맥락으로 볼 수 있다는 점을 강조하고 싶었습니다. )를 위해 디자인됐었던 Transformer를 가져옵니다. 아키텍처적으로 기존의 backbone으로 Transformer의 encoder만을 사용하던 것과는 다르게 'Attention is all you need'의 Transformer의 encoder-decoder구조를 가져와 direct set prediction의 적절한 architecutre를 사용했습니다. ( 이러한 점에서 필자는 개인적으로 Transformer를 정말 잘 이해하고 활용한 논문은 DETR이라고 생각한다. ) 결국 DETR에서 주장하고자 하는 바는 기존의 것들에 비해 본질적으로 간단한 구조를 가지면서도 기존의 prior knowledge를 고려한 hand-designed complex detection pipeline에 대등한 성능을 보여 줬다는 점입니다.
Links
한 줄 요약
선택 이유