Question about training dataset

tmtmaj commented 3 years ago

안녕하세요.

먼저 모델 공유해주셔서 너무 감사드립니다. 정말 유용하게 활용하고 있습니다.

training dataset에 대한 질문이 있어서 이렇게 질문을 남기게 되었습니다.

DistilkoBERT는 koBERT와 같은 training dataset을 사용하셔서 트레이닝하신 건가요?

*NMT에 PrLM의 output을 사용하는 프로젝트를 진행 중인데, NLU tasks에서 koBERT와 DistilkoBERT의 성능 차이가 NMT에서도 비슷한 양상으로 나타나는지 확인하려합니다. training dataset이 같아야 좀 더 공정한 비교를 할 수 있을 것 같아 이렇게 질문 드립니다.

monologg commented 3 years ago

@tmtmaj

KoBERT 제작에 사용된 Corpus가 공개되어 있지 않은 관계로 제가 개인적으로 가지고 있는 corpus를 사용하여 distilkobert 제작했습니다

tmtmaj commented 3 years ago

빠른 답변 감사드립니다!

monologg / DistilKoBERT

Question about training dataset #6