long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[131] Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels #143

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

motivation

image

random crop을 하면 실제 object와 IoU가 0.5이상인 경우가 23.5%밖에 안된다고..

image

Re-Labeling ImageNet

JFT-300M /InstagramNet-1B으로 학습된 super-ImageNet scale을 ImageNet에 finetune -> single label이지만 noisy label + cross entropy 일 때 multi-label로 예측하는 성향 가령 한 이미지 x에 대해 Label이 0이기도 하고 1이기도하면 ce loss는 (1/2, 1/2)로 예측하는게 최적

global pooling 없이 w x h에 대해 마지막 classifier를 1x1 conv weight로 사용하면 각 픽셀별로 classifier가 나올 수 있음! (1 x 1 conv 어렵게 생각하지 말고 그냥 w x h x d -> (GAP) 1 x d -> 1 x C 였던걸 w x h x d -> w x h x c 로 했다고 생각하면 된다) related work는 Fully Convolutional Networks for Semantic Segmentation / CAM!

그렇게 만든걸 실제 학습 때 사용하는 방법

image

미리 imagenet에 대한 label map은 저장해놓는다. 이미지 crop이 되면 label map에서도 그 부분을 RoI Align을 해서 뽑는다 -> 나온 label에 대해 softmax를 취해서 soft label로 사용한다 (면적 높은 애가 더 높은 class를 가지는 듯?)

Results

image

학습된 backbone으로 다른 task도 해봤는데 image net pretrained 보다 개선

image

Ablations

image

요소가 1) multi-label 2) localized인데 GAP를 다시 넣거나 argmax를 하면서 ablation. 둘다 성능에 주요한 요소였다

long8v commented 12 months ago

imagenet-a 를 까볼 일이 있었는데 진짜 그런게 많았땅 정답: 플라밍고

image image

정답 : 침낭

image image image

정답 : 옥수수

image image image image image