Closed silencio94 closed 4 years ago
Layer=6의 경우, Distillation 과정에서 GPU 모델은 어떤 것을 8개 쓰셔서, 어느정도의 시간이 소요되었나요?? 배치 사이즈는 1000이라고 보면 맞을까요? 감사합니다.
안녕하세요:)
원 논문의 세팅이었던 layer=6으로 시도해보진 않았습니다.
참고로 layer=3로 했을 때는
로 세팅하였고, 총 3일 정도 소요되었습니다.
train_single_gpu_3_layer.sh를 참고하시면 될 것 같습니다.
감사합니다.
유용한 실험결과 잘 봤고, 답변 감사합니다!
Layer=6의 경우, Distillation 과정에서 GPU 모델은 어떤 것을 8개 쓰셔서, 어느정도의 시간이 소요되었나요?? 배치 사이즈는 1000이라고 보면 맞을까요? 감사합니다.