구현_다양한 loss 구현 및 실험

boostcampaitech3 / level2-klue-level2-nlp-09

네이버 부스트캠프 | KLUE Relation Extraction(RE)

7 stars 7 forks source link

구현_다양한 loss 구현 및 실험 #53

Closed maxha97 closed 2 years ago

maxha97 commented 2 years ago

focal, f1, ce 등 다양한 로스를 구현하여 실험해봅니다

maxha97 commented 2 years ago

focal loss사용 checkpoint 4000 버전

모델: BB(bert-base)
리더보드: micro_f1 score 64.8878 | auprc 60.7306
epoch: 5
learning rate: 5e-5(default)
amp: O1
wandb 모델명: BB_ST_NO f1loss 적용 최종(https://wandb.ai/level2-nlp-09/KLUE-test/runs/3ajj1rc8?workspace=user-maxha977)
train/dev split: ST(stratified split) 8:2
data: V1 (재학님 v1)
sentence_filter: 기호 제거 X | 한자 제거 X
marking_mode: NO(normal)

f1-loss의 경우, 기존의 크로스 엔트로피에 추가적인 가중치를 곱하여, 라벨별 비율이 불균형한 데이터셋에서, 비율이 적은 데이터셋에 대해 학습이 잘 이뤄지지 못하거나 과도하게 이뤄지는 문제를 해결하고자 하였다. 하지만, 현재 Default Loss(Label Smoother)와 비슷한 성능을 보임으로써, 큰 성능 차이를 확인하기 어려웠다)

maxha97 commented 2 years ago

Weighted Cross-entropy 사용버전 (checkpoint 불명)

모델: BB(bert-base) 리더보드: micro_f1 score 63.7489 | auprc 62.8303 epoch: 10 learning rate: 5e-5(default) amp: O1 wandb 모델명: BB_ST_NO f1loss 적용 최종(https://wandb.ai/level2-nlp-09/KLUE-test/runs/1s6kmasq?workspace=user-maxha977) train/dev split: ST(stratified split) 8:2 data: V1 (재학님 v1) sentence_filter: 기호 제거 X | 한자 제거 X marking_mode: NO(normal)

기존에 많이 사용되던 Crossentropy를 활용하되, 데이터 불균형 문제를 해결하기 위해 샘플 개수 n에대한 1/n 가중치를 도입하였다. 또한, 다른 그래프와는 달리 좀 더 늦게 학습되는 것을 고려하여, 에폭을 10으로 주었다. 그래프 추세를 볼 때 기존의 성능과 큰 격차를 만들어내진 못하였다. 실제 성능 역시 좋은 성능을 보여주진 못하였다.

maxha97 commented 2 years ago

추가적으로, f1 loss의 경우, 성능이 50점대로 낮은 성능을 보여줘, 언급하지 않기로 하였습니다. 현재 데이터에선 이미지 데이터에선 준수한 성능을 보여줬던 것과는 달리, 성능이 좋지 못한 것으로 파악되었습니다. 하지만, 이역시 파라미터 조정 등 다양한 환경의 문제일 수 있어 수정을 고려해볼 수 있을 것입니다. 하지만, 성능차가 생각보다 커, 파라미터 조정으로 얻을 수 있는 성능 향상이 크더라도 기존 로스와 비슷한 성능으로 끌어올리는데만해도 매우 많은 시간이 소요될 가능성이 있어 진행하지 않았음을 알려드립니다.

boostcampaitech3 / level2-klue-level2-nlp-09

구현_다양한 loss 구현 및 실험 #53

wandb 모델명: BB_ST_NO f1loss 적용 최종(https://wandb.ai/level2-nlp-09/KLUE-test/runs/3ajj1rc8?workspace=user-maxha977)