boostcampaitech4lv23nlp1 / final-project-level3-nlp-03

Multi-Modal Model for DocVQA(Document Visual Question Answering)
3 stars 0 forks source link

Gradient Exploding issue #14

Closed hundredeuk2 closed 1 year ago

hundredeuk2 commented 1 year ago

목표

훈련 중 Loss 값이 튀는 현상을 발견 image

처음엔 Dataset Cache문제인 줄 알았으나, VScode 미실행시에도 발생하는 경우가 생김 model weight 초기화 문제는 아니라고 판단이됨

세부사항

  1. lr가 너무 커 수렴하지 못함
  2. hit 알고리즘은 잘 작동하는 것으로 보아, answer가 없거나 index가 짤려서 예측이 되어 버리는 error가 아닐까 싶음
  3. batch size와 max length 그리고 tokenizer 쪼갠 결과 분석이 필요할 것으로 보임
hundredeuk2 commented 1 year ago

1번 세부사항. lr scheduler 적용 중.

from torch.optim.lr_scheduler import CosineAnnealingWarmRestarts optimizer = AdamW(model.parameters(),lr = 5e-5, weight_decay=0.02, eps =1e-8) scheduler = CosineAnnealingWarmRestarts(optimizer, T_0=10, T_mult=2, eta_min=1e-7)

hundredeuk2 commented 1 year ago

lr : 1e-5 이상 크면 학습보폭이 너무 커서 logit값이 수렴되지않고 폭팔하는 것으로 확인