long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[84] DiffusionDet: Diffusion Model for Object Detection #93

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

motivation

image image

Preliminaries : diffusion model

image

학습되는 loss는 neural network $f_\theta$의 결과값과 $z_0$의 MSE

image

이 논문에서 $z_0$는 GT bbox.

architecture

image

Sparse R-CNN과 차이

(1) random bbox로 시작하기 때문에 infer단계에서 학습에서 사용한 bbox 개수보다 더 많이 사용할 수 있음 (2) sparse RCNN과 달리 첫번째 RoI pooling한 feature만 받음 (3) detector head를 재사용

Training

GT + gaussian noise 추가해서 Noisy bbox로 만들고 이걸로 시작.

image

Inference

그냥 랜덤 가우시안 bbox로 시작

image

Result