issues
search
snu-entrance
/
RAM_BERT
0
stars
0
forks
source link
pre-train 스펙 정하기
#7
Open
krlee407
opened
5 years ago
krlee407
commented
5 years ago
issue 1
bert 내장 다국어 tokenizer가 신뢰도가 낮음
khaiii를 이용해서 tokenizer로 해보자
issue 2
컴퓨팅 자원이 딸려서 😭 max_len 크기를 제한할 필요가 있음
길이를 줄이기 위해 조사를 떼고 (상대적으로 영향이 적을 것) pre-train 시키기
이 때, word_piece는 따로 하지 않는 걸로
최종적으로
[ ] khaiii tokenizing -> word_piece -> pre-train
[ ] khaiii tokenizing -> pre-train 두 가지를 해보기
issue 1
issue 2
최종적으로