non-EU 데이터 (GDPR 이라고 EU 개인정보 보호) Instagram 에서 긁어모음
데이터는 unfiltered 상태, 총 양은 1B
분석은 10M subset 으로조금 해봤음
적당히 분포가 다양.
모델
RegNet (1.5B) 에서 변형을 시작함.
compound scaling, width scaling, more layer, input size 총 네가지를 고려했고,
얘네 실험에서는, input size 는 키워도 크게 성능향상이 없었다고 함.
wider&deeper 모델 설계.
몇 가지 발견한 점 정리
wide 하지 않고 deep 하기만 하면, downstream 에서 성능향상 그닥 없더라. training 속도는 빠름
high input resolution 은 model runtime 은 키우는데, 성능향상 그닥 없더라.
wider and deeper model 은 효과적
RegNet-Z model architecture 는 intensive 하고, scaling 에 적합하지는 않더라.
학습 설정과 세부적인 layer 정보는 아래와 같음
추가적으로 몇 가지 더 들어감
Activation checkpointing
Fully Sharded DDP (FSDP)
LARS optimizer
결과
FairNess
Casual Conversations Dataset 이용
Benchmark - Classification
Benchmark - linear probing
필자 의견
benchmark set 들에 대해서는 remarkable 하지 않지만, fairness 에서 경쟁력이 있음을 보였음.
죄다 때려박기는 효과적.
어떻게 해야 효율적으로 모델에 데이터를 때려박아 줄 수 있을까.
paper
10B Dense model 에다가 데이터 때려박자는 논문. ssl 방식은 SWAV
데이터
non-EU 데이터 (GDPR 이라고 EU 개인정보 보호) Instagram 에서 긁어모음 데이터는 unfiltered 상태, 총 양은 1B 분석은 10M subset 으로조금 해봤음
적당히 분포가 다양.
모델
RegNet (1.5B) 에서 변형을 시작함. compound scaling, width scaling, more layer, input size 총 네가지를 고려했고, 얘네 실험에서는, input size 는 키워도 크게 성능향상이 없었다고 함. wider&deeper 모델 설계.
몇 가지 발견한 점 정리
학습 설정과 세부적인 layer 정보는 아래와 같음
추가적으로 몇 가지 더 들어감
결과
FairNess
Casual Conversations Dataset 이용
Benchmark - Classification
Benchmark - linear probing
필자 의견
benchmark set 들에 대해서는 remarkable 하지 않지만, fairness 에서 경쟁력이 있음을 보였음. 죄다 때려박기는 효과적. 어떻게 해야 효율적으로 모델에 데이터를 때려박아 줄 수 있을까.