Closed GrapeDiget closed 1 year ago
모델: roberta-large epoch 1만 수행 | baseline | kfold 5개 | kfold 8개 | |
---|---|---|---|---|
submit EM | 56.25 | 47.92 | ||
submit F1 | 69.44 | 59.51 | ||
valid EM | 65.833 | 65.417 | 62.5 | |
valid F1 | 75.416 | 74.298 | 71.38 |
Pre-training a BERT with Curriculum Learning by Increasing Block-Size of Input Text 입력 텍스트의 블록사이즈를 처음엔 작게 하고, 점차 키워가며 훈련 수행하는 Curriculum learning 방법
max_seq_length와 doc_stride를 96/32, 192/64, 384/128로 첨자 키워가면서 훈련 수행
이유 : 커리큘럼 학습은 일반화와 빠른 수렴 속도의 장점을 가진다.
목표 : Reader 모델의 성능 향상시키기