boostcampaitech2 / mrc-level2-nlp-04

mrc-level2-nlp-04 created by GitHub Classroom
4 stars 5 forks source link

DPR tokenizer 바꿔보기 #32

Open whatchang opened 2 years ago

whatchang commented 2 years ago

작업 순서

1. 자료 찾기

~2. 적용해보기~

~* 2-1 : mecab~

3. 결과 정리

원래 계획 : 여러 한국어 tokenizer를 적용해서 성능을 비교해보자

그러나! nori는 elasticsearch plug-in에서만 사용가능하고 mecab의 mecab-ko-dic를 이용하여 학습시킨(vocab file을 만들때 사용) tokenizer/module들을 사용할 필요가 없어졌습니다. -> 이유 : klue에서 이미 사용해버림 ;;;

스크린샷 2021-10-28 오전 12 34 13

mecab의 형태소 분석기와 huggingface의 BPE를 이용하여 vocab file을 만들고 이것을 huggingface klue benchmark에 오려두었습니다 ㅠㅠ

혹시나 하는 마음에 아래와 같은 문장을 klue의 tokenizer로 tokenize시켰는데....

스크린샷 2021-10-28 오전 12 34 20

결과 스크린샷 2021-10-28 오전 12 45 52

mopheme-based subword와 똑같습니다 ㅠㅠㅠㅠㅠ

또 klue의 모든 모델의 tokenizer는 같은 vocab file을 사용합니다.

스크린샷 2021-10-28 오전 12 34 37

mopheme-based subword방식이 BPE보다 더 좋은 것 같습니다. (mopheme-based subword 방식은 형태소 기반 subword 방식입니다.)

헉!!!! 그... 그래도.... 다른 tokenizer를 바꾸면 성능이 다르지 않을까 생각해봤지만.... 두둥탁!

스크린샷 2021-10-28 오전 12 35 45

요약 : 추후 연구자들은 기존의 tokenization전략을 사용하라고 합니다. -> 시간 낭비하지 마셈 😤

결론 : tokenizer 성능은 이미 좋은 것을 쓰고 있는 것 같습니다.

스크린샷 2021-10-28 오전 12 56 41

raki-1203 commented 2 years ago

오 우창님 감사합니다!! 대박 ㅠㅠ 깔끔하게 안해도 되는 이유가 찾아지네요 ㅋㅋㅋㅋ 수고하셨습니다

sangmandu commented 2 years ago

오 대 박 우 창 님 최 고 에 요

sangjun-Leee commented 2 years ago

😍