[2] DETR: End-to-End Object Detection with Transformers

[Review Link]
https://hyoseok-personality.tistory.com/entry/Paper-Review-DETR-End-to-End-Object-Detection-with-Transformers

Summary

기존의 Obejct Detection Methods들은 task에 대한 사전 지식을 고려한 hand-designed component들이 필요해 complex detection pipeline을 가지고 있는 indirect set prediction problem이었습니다. 저자들은 이에서 벗어나 object detection을 direct set prediction problem(image-to-set)으로 보고자 했습니다. 이를 위해 set matching을 위한 bipartite matching, hungarian algorithm같은 기존의 매칭 알고리즘을 Loss에 녹였고, image-to-set으로 direct set prediction에 sequnece-to-sequence( sequence set prediction이라는 표현이 적절하지 않지만 비슷한 맥락으로 볼 수 있다는 점을 강조하고 싶었습니다. )를 위해 디자인됐었던 Transformer를 가져옵니다. 아키텍처적으로 기존의 backbone으로 Transformer의 encoder만을 사용하던 것과는 다르게 'Attention is all you need'의 Transformer의 encoder-decoder구조를 가져와 direct set prediction의 적절한 architecutre를 사용했습니다. ( 이러한 점에서 필자는 개인적으로 Transformer를 정말 잘 이해하고 활용한 논문은 DETR이라고 생각한다. ) 결국 DETR에서 주장하고자 하는 바는 기존의 것들에 비해 본질적으로 간단한 구조를 가지면서도 기존의 prior knowledge를 고려한 hand-designed complex detection pipeline에 대등한 성능을 보여 줬다는 점입니다.

Contribution

Set Prediction Problem에 대해 좋은 연구방향성 제시 ( hungarian loss & transformer 활용 )
Object Detection Task에서 가장 적절한 end-to-end & direct set prediction이 가능한 Transformer구조를 제시 ( 이전의 prior knowledge for object detection 이 이제는 필요 없음 )
기존의 복잡한 파이프라인을 매우 간소화하면서 충분히 성능을 보임

더 생각할 볼만한 것들 ( 한계 및 개선 등등 )

개인적으로는 개선될 여지는 너무 많다고 생각한다. 애초에 baisc한 구조까지만 제안하며 conclusion에도 개선 가능성이 너무 넓다고 적혀있기 때문이다.
Set Predcition Problem으로 정의될 수 있는 다양한 문제에서 end-to-end를 위해 DETR의 구조를 잘 활용할 수 있을 것 같다. 예를 들자면 Line Segment Detection에서 CVPR 21' (Oral)을 받았던 LETR같은 것이 되겠다.
논문을 읽으면서 과하게 N을 크게 설정하는 것이 오히려 쓸데 없는 cost를 늘리지 않을까라는 생각도 했다. 물론 loss measure할 때나 그저 fixed factor를 사용하기는 하지만, 그래도 prediction과정에서 computational cost가 늘어날 것이라고 생각한다. 이러한 점을 개선할 수도 있지 않을까 싶다.

DeepVisionStudy / PaperReview