modu-ssl-lab / ssl-papers

MIT License
6 stars 0 forks source link

3주차 논문 발표: DistilBERT, a distilled version of BERT_smaller, faster, cheaper and lighter #3

Open najaehwa opened 2 years ago

najaehwa commented 2 years ago

논문 제목

논문 링크

발표 자료

참조

cwh1981 commented 2 years ago

teacher와 student layer 수가 같은 것 같은데, 왜 다른지라고 물어보신게 맞을까요?
https://github.com/monologg/DistilKoBERT/blob/master/distillation/train.py#L274

najaehwa commented 2 years ago

말씀하시는 vocab_size, hidden_size, max_position_embeddings 는 동일한 내용이 맞습니다. student와 teacher가 다른 부분은 Transformer Block layer 입니다.

혹시, 제가 설명을 잘못 드렸다면 아래와 같은 기준으로 참고하시면 좋을 것 같습니다.

base-cased 기준으로 살펴보면,,