dhkim0225 / 1day_1paper

read 1 paper everyday (only weekday)
54 stars 1 forks source link

[70] Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision (SEER) #99

Open dhkim0225 opened 2 years ago

dhkim0225 commented 2 years ago

paper

10B Dense model 에다가 데이터 때려박자는 논문. ssl 방식은 SWAV

데이터

non-EU 데이터 (GDPR 이라고 EU 개인정보 보호) Instagram 에서 긁어모음 데이터는 unfiltered 상태, 총 양은 1B 분석은 10M subset 으로조금 해봤음

image

적당히 분포가 다양.

모델

RegNet (1.5B) 에서 변형을 시작함. compound scaling, width scaling, more layer, input size 총 네가지를 고려했고, 얘네 실험에서는, input size 는 키워도 크게 성능향상이 없었다고 함. wider&deeper 모델 설계.

몇 가지 발견한 점 정리

  1. wide 하지 않고 deep 하기만 하면, downstream 에서 성능향상 그닥 없더라. training 속도는 빠름
  2. high input resolution 은 model runtime 은 키우는데, 성능향상 그닥 없더라.
  3. wider and deeper model 은 효과적
  4. RegNet-Z model architecture 는 intensive 하고, scaling 에 적합하지는 않더라.

학습 설정과 세부적인 layer 정보는 아래와 같음 image

추가적으로 몇 가지 더 들어감

결과

FairNess

Casual Conversations Dataset 이용 image image image

Benchmark - Classification

image

Benchmark - linear probing

image image

필자 의견

benchmark set 들에 대해서는 remarkable 하지 않지만, fairness 에서 경쟁력이 있음을 보였음. 죄다 때려박기는 효과적. 어떻게 해야 효율적으로 모델에 데이터를 때려박아 줄 수 있을까.