boostcampaitech4lv23nlp1 / final-project-level3-nlp-03

Multi-Modal Model for DocVQA(Document Visual Question Answering)
3 stars 0 forks source link

Improved inLarge Model #15

Open hundredeuk2 opened 1 year ago

hundredeuk2 commented 1 year ago

목표

Large 모델이 더 잘되는 이유를 찾아보자. 다음은 base모델과 large모델의 결과 차이이다.

LayoutLMv2 (3e-5 / 3epoch) fix hit algorithm 0.66 0.40 0.74 0.60 0.71 0.67 0.40 0.49 0.33 0.56
LayoutLMv2 Large (3e-5) no hit algorithm 0.68 0.43 0.74 0.63 0.72 0.69 0.44 0.51 0.67 0.61

total 점수가 목표인 0.7점대에 가까워지고 있음을 알 수 있지만 단순히 모델 parameter수가 많아졌다고 끝내는 것이 아닌 이유에 대해서 분석하자는 것이 취지

세부사항

Yes/No부분이 눈에 띄게 향상됨

  1. Large / Base Vocab 비교
  2. Large / Base Parameter Cell 비교 - 어디서 더욱 정보 반영이 잘되었는지 확ㅇ니
  3. Tokenizer 확인