kimcando / BoostcampAITech3-PaperReading-Embedding

Boostcamp AI Tech 3rd / Basic Paper reading w.r.t Embedding
13 stars 3 forks source link

[week 8] 본 논문에서 제안하는 character n-gram을 활용하면 접두사와 접미사에 대한 정보를 알 수 있나요? #31

Closed HanNayeoniee closed 2 years ago

HanNayeoniee commented 2 years ago

character n-gram을 구성할 때, 첫 번째 subword에는 <를 붙이고 마지막 subword에는 >를 붙인다고 합니다. 저는 이 기호가 subword 집합의 시작과 끝을 알리는 역할이라고 생각했는데요, <과 >를 통해 해당 단어의 접두사와 접미사에 대한 정보를 알 수 있나요?

Each word w is represented as a bag of character n-gram. We add special boundary symbols < and > at the beginning and end of words, allowing to distinguish prefixes and suffixes from other character sequences.

image

단어 where의 character n-gram(n=3)

eunkey commented 2 years ago

<가 붙은 경우에는 접두사, >가 붙은 경우에는 접미사로 평가되게 됩니다. 그렇게 되면 단어 중간에 접두사 형태가 나오더라도 ex) <im , im 두 단어는 다르게 학습되게 되어서 접두사, 접미사를 보다 정확하게 학습할 수 있는 것 같습니다.