@teang1995 @eubinecto

공통질문

저자는 어떠한 문제를 해결하고자 했는가?

궁극적인 목표

궁극적으로 풀고자하는 문제는 transduction problem 이다. 특히 기계 번역, 음성 인식 등 자연어 처리 분야의 문제를 해결하는 것에 집중함.

introduction: eubinecto/k4ji_ai#21

해결하고자 하는 문제

attention 메커니즘이란?

RNN, CNN에 attention 메커니즘은 어떻게 결합되어 사용될 수 있는 것인가요? - eubinecto/k4ji_ai#39

self-attention이란?

self attention이란 무엇인가요? - eubinecto/k4ji_ai#42

논문에서

background: eubinecto/k4ji_ai#22

요약하자면

transduction problem을 풀기위한 기존의 방법으로는 RNN, CNN을 encoder-decoder 구조로 활용하는 방법이 있었는데, 이 두 방법은 입력의 길이가 길어질 경우 학습이 어렵다는 점과, 병렬적인 연산이 불가능하다는 근본적인 문제가 있다.

첫번째 문제의 경우, attention 개념을 적용해 RNN + attention / CNN + attention으로 어느 정도 해결이 가능했으나, 병렬적인 연산이 불가능 하다는 것은 RNN과 CNN의 구조로부터 기인하는 문제이기 때문에, attention을 적용하더라도 해결할 수가 없다.

그 문제를 해결한 방법은 무엇인가?

recurrence를 완전히 버리고, 어텐션만을 사용해보자. "Attention is all you need"이다. 새롭게 제안한 모델은 오직 attention 메커니즘만을 활용해 transduction problem을 풀 수 있으며, Transformer 라고 명명함. (어떤 의미에서 "transform"인지는 잘 모르겠다)

그 방법의 구현 방법에 대한 이해

encoder-decoder의 역할

Encoder and Decoder Stacks eubinecto/k4ji_ai#23
self-attention은 왜 필요한가? eubinecto/k4ji_ai#42

요약하자면

Transformer의 Encoder: 주어진 seq self-attention head들을 활용해 context를 더해 출력한다.
Transformer의 Decoder: 입력이 두개.
- label seq: Encoder와 동일한 self-attention head 작업.
- decoder가 t(현재)에 대한 예측값을 얻어낼 때, t + a(미래)로 부터 정보를 참조하지 않기 위해, t이후의 정보는 전부 masking을 하는 것이 필요하다.
- Encoder로 부터 얻은 context vector를 풀고자 하는 문제에 맞게 decoding한다.

scaled- dot product의 역할

attention eubinecto/k4ji_ai#24
Scaled-dot product attention에서 scale을 하는 목적이 무엇인가요? eubinecto/k4ji_ai#41

multi-head attention - 역할

attention eubinecto/k4ji_ai#24

positional encoding의 역할

positional encoding eubinecto/k4ji_ai#27
self-attention의 역할
Why self-attention eubinecto/k4ji_ai#28

그 방법의 장점은 무엇인가?

transfomer의 장점?

병렬적이다.
global depency가 가능하다.
훈련시간이 획기적으로 줄어듦
recurrence를 벗어낫기 때문에, vanishing & exploding gradients 문제를 겪지 않는다!
보너스: interpretability. - https://github.com/eubinecto/k4ji_ai/issues/28#issuecomment-698258183

그 방법의 단점(한계)은 무엇인가?

오직 텍스트만을 다루는 모델
global depency가 존재할 수 없는 문제에는 적합하지 않음 (e.g. 기상예측)
qudratic complexity가 quadratic (O(n**2 x d)한 건 여전히 무시할 수 없다. (의식을 했는지, Restricted 방식도 제안을 함)

논문을 코드로 구현해보는 예제

이 부분을 수학적 이해를 할 때 추가를 해보면 좋을 것 같습니다.

eubinecto / k4ji_ai

공통 질문 & 느낀점 정리해보기 #36

공통 질문

공통질문

저자는 어떠한 문제를 해결하고자 했는가?

궁극적인 목표

해결하고자 하는 문제

attention 메커니즘이란?

self-attention이란?

논문에서

요약하자면

그 문제를 해결한 방법은 무엇인가?

그 방법의 구현 방법에 대한 이해

encoder-decoder의 역할

요약하자면

scaled- dot product의 역할

multi-head attention - 역할

positional encoding의 역할

self-attention의 역할

그 방법의 장점은 무엇인가?

그 방법의 단점(한계)은 무엇인가?

논문을 코드로 구현해보는 예제