Closed nonegom closed 2 years ago
SOTA(CG) + KFold + Focal Loss 적용 버전 (step4000)
모델: RL(roberta-large) 리더보드(epoch/4000): micro_f1 score: 74.2415 | auprc: 79.6989 epoch: 5 amp: O1 wandb 모델명: RL_ST_TP_TPSent_SOTA train/dev split: KFold data: V1 (재학님 v1) sentence_filter: False(기호제거 사용) marking_mode: TP(Typed_Entity_Punc) tagging: Typed_Entity_Punc( [CLS]# ^ {PER} ^ {발레리노} # ]@ {PER} {김기민} @ 어떤 관계일까? [SEP]# ^ {PER} ^ {발레리노} # ]@ {PER} {김기민} @ 씨는 예원학교, ... [SEP] 파라미터 세팅값 추가
warmup_ratio: "0.1", adam_epsilon: "1e-06", learning_rate: "3e-05" max_seq_length: 512
추가적으로 Focal Loss로 변경하여 점수가 상승하는 효과를 가져왔다. F1 loss 기준 0.2 점 상승과 더불어, auprc 3점 상승을 가져왔다. 이를 통해, Roberta Large 모델에선 특정 파라미터를 기준으로 성능의 향상이 유의미하며, 특히 auprc에서 뚜렷함을 확인할 수 있었다
SOTA(CG) + Focal Loss 적용 버전 (KFold를 적용하지 않음) (step4000) Wandb: https://wandb.ai/level2-nlp-09/KLUE-test/runs/23ceqkyl?workspace=user-maxha977
모델: RL(roberta-large) 리더보드(epoch/4000): micro_f1 score: 74.2173 | auprc: 78.6802 epoch: 5 amp: O1 wandb 모델명: RL_ST_TP_TPSent_SOTA train/dev split: KFold data: V1 (재학님 v1) sentence_filter: False(기호제거 사용) marking_mode: TP(Typed_Entity_Punc) tagging: Typed_Entity_Punc( [CLS]# ^ {PER} ^ {발레리노} # ]@ {PER} {김기민} @ 어떤 관계일까? [SEP]# ^ {PER} ^ {발레리노} # ]@ {PER} {김기민} @ 씨는 예원학교, ... [SEP] 파라미터 세팅값 추가
warmup_ratio: "0.1", adam_epsilon: "1e-06", learning_rate: "3e-05" max_seq_length: 512
Focal Loss 점수 상승 효과가 커, 찬국님 기존 모델에서 Loss만 변경하는 방식으로 적용해보았다. 생각보다 성능차이가 뚜렷함을 확인할 수 있었다. 이로써, Kfold 없이 Focal Loss로 변경하는 것만으로도 충분히 유의미한 성능향상을 만들어낼 수 있음을 확인할 수 있었다. 이는 Kfold 모델 실행하는데 시간이 많이 걸린다는 점을 고려할 때, Kfold 없이도 높은 성능을 낼 수 있다는 점에서 의미있는 결과로 볼 수 있다
loss는 서로 기준이 달라 비교가 불가능하여 의미가 없으며, f1, auprc, accuracy 기준 그래프상으로 큰 차이를 보이진 않았다. 하지만, 실제 성능향상은 유의미하였다는 점에서, 그래프만으로 속단하면 위험할 수 있음을 알 수 있었다.
SOTA(CG) + KFold 적용 버전
모델: RL(roberta-large) 리더보드(epoch/4000): micro_f1 score: 74.0581| auprc: 76.9582 epoch: 5 amp: O1 wandb 모델명: RL_ST_TP_TPSent_SOTA train/dev split: KFold data: V1 (재학님 v1) sentence_filter: False(기호제거 사용) marking_mode: TP(Typed_Entity_Punc) tagging: Typed_Entity_Punc( [CLS]# ^ {PER} ^ {발레리노} # ]@ {PER} {김기민} @ 어떤 관계일까? [SEP]# ^ {PER} ^ {발레리노} # ]@ {PER} {김기민} @ 씨는 예원학교, ... [SEP] 파라미터 세팅값 추가
warmup_ratio: "0.1", adam_epsilon: "1e-06", learning_rate: "3e-05" max_seq_length: 512
KFold 적용만으로 f1 기준 0.5점 (73.7 => 74.2) 상승하는 효과를 가져왔다. 극적인 상승은 아니지만 충분히 상승하는 효과를 보여주었다. 다만, Split을 하지 않은 데이터에서 진행할 경우 차이가 얼마나 있는지 확인이 필요한 상황이다