[Model] Classifier 모델 구조 변경 - Githubissues

boostcampaitech5 / level2_klue-nlp-04

level2_klue-nlp-04 created by GitHub Classroom

1 stars 0 forks source link

[Model] Classifier 모델 구조 변경 #12

Closed dbsrlskfdk closed 1 year ago

dbsrlskfdk commented 1 year ago

현재 상황과 문제점

AutoModelForSequenceClassification 으로 생성하는모델은 기본적으로 Encoder에 Classifier 레이어만 붙여준 형태
모델의 표현이 부족하지 않을까?
Subject Entity와 Object Entity의 표현을 이용할 수 있는 방법이 없을까?

개선 제안 사항

RE Task에서 대부분의 좋은 성능을 내는 모델은, Subject Entity와 Object Entity의 표현을 이용한다

RE_improved_baseline
- 기본적으로 Subject Entity Representation + Object Entity Representation 을 활용
- [x] 실험해보기
R-BERT
- 더 나아가서 Sentence Representation[CLS] + Subject Entity Representation + Object Entity Representation 을 활용
- [x] 실험해보기

성능 개선 기대점

Subject Entity와 Object Entity의 표현을 이용한다면, Relation 추측에 있어서 더 높은 정확도를 기대할 수 있을 것으로 예상.

dbsrlskfdk commented 1 year ago

klue/roberta-large + Improved 가 제안사항 1번 결과

Roberta-large Typed Entity 보다 모델의 성능이 많이 올라가는 것을 볼 수 있다. 하지만 과적합 문제는 아직 살짝 남아 있는 듯 하다. 데이터 라벨 편향이 너무 심하기에 이것을 해결하기 위한 노력을 해봐야할 것 같다.

dbsrlskfdk commented 1 year ago

klue/roberta-large+CLS+(Subj Avg + Obj Avg) 가 2번 모델

꽤나 준수한 성능을 낸다. 그래도 no-relation의 데이터가 많기에, eval_loss의 값이 높아지며, 과적합이 생기는 문제는 생기는 듯 보인다.