Closed Taekyoon closed 4 years ago
BERT Base 모델(12-layers, 768 hidden-size, 109M parameters)을 teacher 모델로 설정
Adam Optimizer
For 6-layers 768 hidden-size
Distill에서 사용한 머신
6-layers 384 hidden-size의 경우 in-house BERT를 활용
학습 파라메터 설정이 일부 다르지만 큰 차이는 없음
파라메터 수가 많이 줄어들었지만 Generation 성능에는 Teacher 모델과 비교했을 때 큰 차이를 보이지 않음
Question Generation