boostcampaitech2 / mrc-level2-nlp-04

mrc-level2-nlp-04 created by GitHub Classroom
4 stars 5 forks source link

DPR Encoder 커스텀해보기 #26

Open whatchang opened 2 years ago

whatchang commented 2 years ago

작업 순서

1. 자료조사

상민님 코드와 klue 대회때 9조 것을 참고하여 변형시키기 bert/roberta + BiLSTM + Conv1D -> (B, H)

2. 코드 작성 및 결과 예상해보기

위의 내용을 바탕으로 코드 작성

3. 결과 분석해보기

스크린샷 2021-10-25 오후 3 35 03

먼저 small의 batch size는 16이며 large는 4입니다.

기존과 커스텀한 것들의 결과를 비교하면 대체로 커스텀한 모델이 기존보다 6~7%정도 성능이 더 떨어진 것을 확인할 수 있었습니다.

정확하지는 않지만 이와 같은 현상이 나타난 이유는 다음과 같습니다.

  1. 구현 실수
  2. BiLSTM 부분 - BiLSTM을 사용하지 않는게 더 좋을 수 도 있다.
  3. BiLSTM 이후 나온 값에 대해서 Convolution으로 압축해준 부분

4. ~리더보드 제출해서~ 결과 비교해보기

학습이 epoch마다 끝날때 eval을 해준 결과 <- 이것은 학습이 잘 되고 있나 정도를 파악하기 위한 수치입니다. 스크린샷 2021-10-27 오전 10 50 08 그래프 - validation

학습이 최종 완료된 모델을 가지고 retrieval_test.py로 성능 검증하기 스크린샷 2021-10-27 오전 10 52 39 그래프 - test(wiki)

스크린샷 2021-10-27 오전 10 58 12

위의 결과를 보고 알 수 있듯이 custom model보다 기존의 모델을 사용하는 것이 더 성능이 좋았습니다.

처음 예상했을때는 BiLSTM이 bert/robert에서 나온 결과에 대해서 더 의미있는 결과를 반환할 것이라고 생각했으나 결과를 봤을때는 반대로 방해하지 않았나 싶습니다.