eubinecto commented 4 years ago

To-do

다음의 섹션에 대해 스터디한 내용을 정리해보기!

eubinecto commented 4 years ago

attention 텐서플로우 튜토리얼

논문의 거의 모든 내용을 자세한 설명 & 텐서플로우 코드로 설명해주는 튜토리얼이 있다.

에 대한 설명, 코드로 구현 방법에 대해서도 설명을 해준다. 해당 개념을 이해하는데 매우 큰 도움이 됨.

먼저 attention이 무엇인지에 대한 이해가 필요하다. eubinecto/k4ji_ai#38 에 따로 정리해두었습니다.

여기에서, Query, Key, Value가 각각 무엇을 의미하는지를 이해하기 위해서는, self-attention이 무엇인지에 대한 이해가 필요하다. eubinecto/k4ji_ai#42 에 따로 정리해두었습니다.

teang1995 commented 4 years ago

figure 2	equation 1

input으로 Q,, K, V가 있는데 Q와 K는 d_k 의 dimension을 가지고, V는 d_v 의 dimension을 가짐.
Q와 K의 dot-product를 진행 후 d_k^1/2 로 나누어줌.
그 후 softmax를 거쳐 V와 matmul 진행.
실제로는 여러 개의 쿼리에 대한 연산을 동시에 진행함. -연산 결과는 Attention(Q, K, V) = softmax(QK^T/d_k^1/2)V 로 표현할 수 있음.
가장 많이 사용되는 attention function은 additve attention, 혹은 dot-product attention임.
- 참고: https://github.com/eubinecto/k4ji_ai/issues/39#issuecomment-699163305
후자의 경우 d_k^1/2로 나누어주는 점을 제외하면 transformer에 사용되는 것과 동일한 방식.
후자가 최적화된 행렬곱 코드를 적용할 수 있어 더 효율적인 시간/공간 복잡도를 보임.
d_k가 너무 큰 경우 additve attention의 성능이 더 좋음.
d_k가 너무 크면 softmax의 연산에서 gradient vanishing이 발생할 수 있어 d_k^1/2로 scaling했음.

teang1995 commented 4 years ago

figure 2	equation 2

teang1995 commented 4 years ago

RNN 기반 기존의 방법	Transformer의 방법

self-attention 을 계속 stack 할 수 있다.

Encoder의 self attention block의 경우,

Decoder의 self attention block의 경우,