eubinecto / train-of-thoughts

learn by issue tracking
6 stars 0 forks source link

subword tokenization 알고리즘의 종류 / 왜? / 예시? #21

Open eubinecto opened 2 years ago

eubinecto commented 2 years ago

Why?

크게 4개가 있는 것으로 보임 (그냥 구글링 했을 때 제일 처음 나온 글) - WordPiece / BPE / Unigram / SentencePiece. 각각이 무엇이며, 왜 사용하고, 어떻게 사용하는지를 파악해보고 싶다
image

알게모르게 쓰고는 있었지만, 각각의 차이는....? 장단점은...? 설명하라면... 말문이 막힌다. 그러니 한번 공부를 해보자!

To-do's