boostcampaitech2 / mrc-level2-nlp-14

mrc-level2-nlp-14 created by GitHub Classroom
MIT License
10 stars 8 forks source link

[DEV] Curriculum learning #22

Closed JeangyuHeo closed 2 years ago

JeangyuHeo commented 2 years ago

위의 실험들을 통해서 의미 있는 결과를 찾아보고 발전시키는 것이 목표입니다.

KimDaeUng commented 2 years ago

389149e5a531ffc970cfb1bd2884b75f25d2f86d Curriculum Learning을 위한 코드 작성. 순차적으로 데이터셋 split을 바꿔끼면서 학습하는 방식으로 다음과 같이 shell script를 작성하여 실행.

# !bin/bash

python3 new_run.py configs/curri01/easy.yaml

python3 new_run.py configs/curri01/normal.yaml

python3 new_run.py configs/curri01/hard.yaml
KimDaeUng commented 2 years ago

answer의 위치

최종 Curriculum Learning 실험 조건을 아래와 같이 세팅

  1. Masking(3952 * 3 = 11,856)
    • Mask token 2, 원본 train set, 유사한 token 삽입
  2. Sentence Permutation(3952 * 3 = 11,856)
    • Permutation ratio 0.1, 0.2, 0.4
  3. Context Length(19,391)
    • train set을 사용하지 않기 위해 wiki데이터셋에서 생성한 augmentation set 이용
    • Context Length 기준 short < 673 <= normal < 935 <= long

Sample Scoring

KimDaeUng commented 2 years ago

ce453d7e5e11b5c4d1560ed00fe138d0509f0f51 curri-learn branch를 curri-learn-tu에 merge, curri-learn branch 삭제