long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[52] Sparse R-CNN: End-to-End Object Detection with Learnable Proposals #58

Open long8v opened 1 year ago

long8v commented 1 year ago

image

paper, code

TL;DR

Details

image 이미지 내 dense grid에서의 object positional candidate나 global image feature와 상호작용하는 object query가 없는 "purely sparse"한게 특징. 4d로 표현되는 fixed learnable bounding boxes가 주어지고 Region of Interest(RoI)에서 RoI pooling으로 feature를 뽑는데 사용된다. 이때 learnable proposal boxes는 이미지를 보지 않고 뽑기 때문에 이미지 내 통계적인 object location을 의미한다.

image

Learnable proposal feature

4d proposal box가 있지만 localization 정도만 표현하지 더 이상의 정보를 담고 있지 않다. 이를 보강 하기 위해 prosposal box 개수만큼의 높은 차원(256)의 proposal feature도 learnable한 벡터로 만든다.

Dynamic instance interactive head

N개의 proposal box가 나오면 RoIAlign을 해서 각 box의 feature를 뽑은 뒤에 위의 proposal feature와 1x1 conv붙여서 interaction 시켜서 final object feature C를 만든다. 이 C에서 cls, bbox regression을 한다. object feature C는 다음 레이어의 proposal features로 사용되고, bbox도 다음 레이어의 proposal box로 쓰인다.

dynamic head #94

object feature간의 relationship을 학습하기 위해 set of object feature를 dynamic instance interaction(?)을 하기 전에 self-attention 사용을 해서 성능을 늘렸다. (그림에는 생략됨 -.-;;)

image

Results

image

image

초기 bbox들을 크게크게 잡는듯ㅋㅋ