시계열 연산을 줄이기 위한 노력으로 Extended Neural GPU, ByteNet, ConvS2S 등의 토대를 이룸.
이 모델들은 모든 입출력에 대해 CNN을 이용해 병렬적으로 연산함
ConvS2S의 경우 두 입출력 사이의 거리에 대해 선형적으로, ByteNet의 경우 logarithmical 하게 증가함.
Transformer에선 Multi Head Attention 덕분에 위치와 관계 없이 연산 횟수가 상수로 고정됨.
Self Attention(intra Attention)
intra-attention is an attention mechanism relating different positions
of a single sequence in order to compute a representation of the sequence. (깔끔한 해석 x)
End to End memory networks
simple language question answering, language modeling tasks에서 잘 작동함.
recurrent attention mechanism에 기반함.
시계열 연산을 줄이기 위한 노력으로 Extended Neural GPU, ByteNet, ConvS2S 등의 토대를 이룸. 이 모델들은 모든 입출력에 대해 CNN을 이용해 병렬적으로 연산함 ConvS2S의 경우 두 입출력 사이의 거리에 대해 선형적으로, ByteNet의 경우 logarithmical 하게 증가함. Transformer에선 Multi Head Attention 덕분에 위치와 관계 없이 연산 횟수가 상수로 고정됨.
Self Attention(intra Attention) intra-attention is an attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence. (깔끔한 해석 x)
End to End memory networks simple language question answering, language modeling tasks에서 잘 작동함. recurrent attention mechanism에 기반함.