sangmandu commented 2 years ago

1. 모델 개요

2. 모델 성능

주된 지표 4가지의 그래프는 다음과 같다.

4개의 그래프 중 F1 Score 그래프를 더 중점적으로 분석한다. 2 epoch 마다의 결과 그래프는 다음과 같다. 그래프는 클릭하면 더 자세히 볼 수 있다.

5 epoch 이전에는 RoBERTa-large와 BERT-base가 여러 step동안 1,2위를 다투며 성능 순위가 뒤바뀐다. 이 때 3등에는 주로 RoBERTa-base가 위치한다.
5 epoch 이후에는 BERT-base와 KoELECTRA-base가 여러 step동안 2,3위를 다투며 성능 순위가 뒤바뀐다. 이 때 RoBERTa-large는 계속 1등의 성능을 유지한다.
RoBERTa-large와 BERT-base 그리고 RoBERTa-base는 시작부터 제일 큰 상승폭을 그리며 10epoch동안 상위에 위치한다.
KoELECTRA는 초반에는 전체 8등 중 6등의 성적까지 기록하면서 비교적 안좋은 성능을 보이지만, 7 epoch 이후에는 2~4등을 바꿔가며 위치한다.
mBERT는 모든 epoch동안 상위 3개의 모델과 지속적으로 1~2점의 차이를 가진다. multilingual model이지만 아무리 그래도 한국어 데이터셋으로만 pretrained 된 모델과의 성능 차이는 어쩔 수 없다는 결론.
XLM-RoBERTa-base와 DistilBERT-base는 시작부터 끝까지 7, 8등의 성적을 가진다. 아무래도 한국어 데이터셋으로 pretrained 되지 않아서 이러한 결과가 발생했을 가능성이 높다.

다음과 같은 6개의 모델을 제출했다. 모델 선정 기준은 초반 epoch와 후반 epoch에서 각각 성능이 제일 좋았던(실제로 checkpoint로도 남아있었던) 체크포인트를 선택했다.	모델 - checkpoint	F1 Score
KLUE-RoBERTa-large-checkpoint-2400	61.667	69.615
KLUE-RoBERTa-large-checkpoint-8100	65.157	65.231
KLUE-RoBERTa-base-checkpoint-1600	58.887	63.065
KLUE-RoBERTa-base-checkpoint-8100	63.065	60.843
KLUE-BERT-base-checkpoint-1600	65.767	67.799
KLUE-BERT-base-checkpoint-8100	64.032	63.378

RoBERTa의 경우 epoch가 어느 정도 있어야 학습이 잘 된다.
반면, BERT의 경우 적은 epoch에서 학습이 제일 잘 되는 것으로 보인다.
80%의 데이터셋을 학습하는 것보다 100%의 데이터셋을 학습하는 것이 성능이 더 좋다.
- 추후에 K-Fold로 개선해야한다.
  추측
RoBERTa의 경우 minimum point가 10 epoch 이후에 존재할 수도 있다.
- 희락님 실험 결과 20 epoch 에서는 성능이 오히려 감소되었다.
Data Augmentation을 거치면 RoBERTa-large에서 높은 성능을 기록할 수 있을 것으로 보인다.
- 모델이 깊은데 그만큼 데이터도 풍부해졌기 때문.
- 그러나 이 부분은 실험적으로 해봐야 안다.
모델 사용에 있어서 RoBERTa-large RoBERTa-base BERT-base KoELECTRA-base 의 4가지 모델로 실험하는 것이 가장 좋아보인다.

raki-1203 commented 2 years ago

오 정리 잘해주셨네요 감사합니다

whatchang commented 2 years ago

완전 깔끔하게 정리 잘 해주셨네요~~~! 덕분에 여러 좋은 정보를 알 수 있었던 것 같아요!!! 감사하고 고생많으셨어요👍

kimziont commented 2 years ago

RoBERTa를 쓰는게 확실히 좋아 보이네요. 명쾌한 정리 감사합니다. KoELECTRA-base의 리더보드 결과도 궁금하네요🤩

sangmandu commented 2 years ago

RoBERTa를 쓰는게 확실히 좋아 보이네요. 명쾌한 정리 감사합니다. KoELECTRA-base의 리더보드 결과도 궁금하네요🤩

오늘 2개의 기회가 남는다면 해보겠습니다.. ㅎㅎ