Gradient Exploding issue

hundredeuk2 commented 1 year ago

목표

훈련 중 Loss 값이 튀는 현상을 발견

처음엔 Dataset Cache문제인 줄 알았으나, VScode 미실행시에도 발생하는 경우가 생김 model weight 초기화 문제는 아니라고 판단이됨

세부사항

lr가 너무 커 수렴하지 못함
hit 알고리즘은 잘 작동하는 것으로 보아, answer가 없거나 index가 짤려서 예측이 되어 버리는 error가 아닐까 싶음
batch size와 max length 그리고 tokenizer 쪼갠 결과 분석이 필요할 것으로 보임

hundredeuk2 commented 1 year ago

1번 세부사항. lr scheduler 적용 중.

from torch.optim.lr_scheduler import CosineAnnealingWarmRestarts optimizer = AdamW(model.parameters(),lr = 5e-5, weight_decay=0.02, eps =1e-8) scheduler = CosineAnnealingWarmRestarts(optimizer, T_0=10, T_mult=2, eta_min=1e-7)

hundredeuk2 commented 1 year ago

lr : 1e-5 이상 크면 학습보폭이 너무 커서 logit값이 수렴되지않고 폭팔하는 것으로 확인

boostcampaitech4lv23nlp1 / final-project-level3-nlp-03

Gradient Exploding issue #14

목표

세부사항