Closed subinium closed 3 years ago
논문에서는 Convolutional Sequence to Sequence Learning을 참고논문으로 사용하며 positional encoding을 언급
그럼 왜 Transformer에서는 sin, cos을 사용하여 positional encoding을 했을까? (sinusoidal singal)
We chose this function because we hypothesized it would allow the model to easily learn to attend by relative positions, since for any fixed offset $k, PE_{pos+k}$ can be represented as a linear function of $PE_pos.$
이후에 나온 논문에서는 absolute position이 아닌 다음과 같이 pairwise relative position을 추가해주는 게 성능이 더 좋다고 한다.
Concept
Structure
Optimizer
Regularization