Open jinmang2 opened 3 years ago
Weight Initialization
, Large-batch training with Low precision
, Linear scaling learning rate
, Learning rate warmup
, Zero gamma
, No bias decay
, Model tweaks
, Cosine Learning Rate Decay
, Label Smoothing
, Knowledge Distillation
, Mixup
이 있다.
해당 issue에 우리가 사용하는 모델 혹은 개념에 대한 논문들을 모으면 좋겠습니다!
베스트는 Pull Request 혹은 update commit을 여기에 #1 과 같이 호출하여 매핑시키면 좋겠고, 우선 저도 몇 가지 남기겠습니다!