Open long8v opened 1 year ago
paper
학습되는 loss는 neural network $f_\theta$의 결과값과 $z_0$의 MSE
이 논문에서 $z_0$는 GT bbox.
(1) random bbox로 시작하기 때문에 infer단계에서 학습에서 사용한 bbox 개수보다 더 많이 사용할 수 있음 (2) sparse RCNN과 달리 첫번째 RoI pooling한 feature만 받음 (3) detector head를 재사용
GT + gaussian noise 추가해서 Noisy bbox로 만들고 이걸로 시작.
그냥 랜덤 가우시안 bbox로 시작
COCO 2017
LVIS v1.0 val
paper
TL;DR
Details
motivation
Preliminaries : diffusion model
학습되는 loss는 neural network $f_\theta$의 결과값과 $z_0$의 MSE
이 논문에서 $z_0$는 GT bbox.
architecture
Sparse R-CNN과 차이
(1) random bbox로 시작하기 때문에 infer단계에서 학습에서 사용한 bbox 개수보다 더 많이 사용할 수 있음 (2) sparse RCNN과 달리 첫번째 RoI pooling한 feature만 받음 (3) detector head를 재사용
Training
GT + gaussian noise 추가해서 Noisy bbox로 만들고 이걸로 시작.
Inference
그냥 랜덤 가우시안 bbox로 시작
Result
COCO 2017
LVIS v1.0 val