ViT 의 각 토큰 embedding 의 값 (예를들어 어떤 토큰이 [0.1, 0.2, -0.4] ) 을 각 성분마다 랜덤하게 스케일만 바꾸어줌 ([r1 0.1, r2 0.2, r3 * -0.4]), 랜덤하게 스케일을 바꾸어주는 값 (r1,r2, ...) 은 각 "블록"마다 적당한 dist 에서 샘플링.
일반화해서 보면, r1,r2, ... 들을 각 토큰마다 iid 로 베르누이 분포에서 샘플링하면 그게 드롭아웃이고, 즉 드롭아웃을 포함한 조금 더 넓은 범위의 정규화 방법을 제안.
paper
adversarial attack 등에 강건해지고 robust 해졌음.
P ∼ U(1−∆, 1+∆) uniform distribution 에서 뽑게 된다.
Results