monologg / DistilKoBERT

Distillation of KoBERT from SKTBrain (Lightweight KoBERT)
Apache License 2.0
187 stars 25 forks source link

실험결과에 대해 여쭤볼 것이 있습니다. #1

Closed silencio94 closed 4 years ago

silencio94 commented 4 years ago

Layer=6의 경우, Distillation 과정에서 GPU 모델은 어떤 것을 8개 쓰셔서, 어느정도의 시간이 소요되었나요?? 배치 사이즈는 1000이라고 보면 맞을까요? 감사합니다.

monologg commented 4 years ago

안녕하세요:)

원 논문의 세팅이었던 layer=6으로 시도해보진 않았습니다.

참고로 layer=3로 했을 때는

로 세팅하였고, 총 3일 정도 소요되었습니다.

train_single_gpu_3_layer.sh를 참고하시면 될 것 같습니다.

감사합니다.

silencio94 commented 4 years ago

유용한 실험결과 잘 봤고, 답변 감사합니다!