논문에서 사용한 예시 where를 생각하면, <wh, whe, her, ere, re> 가 됩니다. 이때 her 라는 단어는 대명사인 her 과 겹치게 되는게요. 본 논문을 읽었을 때 원래 단어의 subword와 겹치는 단어(즉, where의 3-gram인 her과 대명사 her)를 다르게 처리하는 과정은 없는 것 같습니다.
그렇다면 where를 학습할 때 her 라는 3-gram vector값이 where의 단어 벡터를 구성하는데 좋은걸까요? 오히려 어떤 단어들에 대해서는 노이즈로 작동할수도?
논문에서 사용한 예시 where를 생각하면, <wh, whe, her, ere, re> 가 됩니다. 이때 her 라는 단어는 대명사인 her 과 겹치게 되는게요. 본 논문을 읽었을 때 원래 단어의 subword와 겹치는 단어(즉, where의 3-gram인 her과 대명사 her)를 다르게 처리하는 과정은 없는 것 같습니다.
그렇다면 where를 학습할 때 her 라는 3-gram vector값이 where의 단어 벡터를 구성하는데 좋은걸까요? 오히려 어떤 단어들에 대해서는 노이즈로 작동할수도?