Closed eubinecto closed 2 months ago
@teang1995 @eubinecto
궁극적으로 풀고자하는 문제는 transduction problem 이다. 특히 기계 번역, 음성 인식 등 자연어 처리 분야의 문제를 해결하는 것에 집중함.
transduction problem을 풀기위한 기존의 방법으로는 RNN, CNN을 encoder-decoder 구조로 활용하는 방법이 있었는데, 이 두 방법은 입력의 길이가 길어질 경우 학습이 어렵다는 점과, 병렬적인 연산이 불가능하다는 근본적인 문제가 있다.
첫번째 문제의 경우, attention 개념을 적용해 RNN + attention / CNN + attention으로 어느 정도 해결이 가능했으나, 병렬적인 연산이 불가능 하다는 것은 RNN과 CNN의 구조로부터 기인하는 문제이기 때문에, attention을 적용하더라도 해결할 수가 없다.
recurrence를 완전히 버리고, 어텐션만을 사용해보자. "Attention is all you need"이다. 새롭게 제안한 모델은 오직 attention 메커니즘만을 활용해 transduction problem을 풀 수 있으며, Transformer 라고 명명함. (어떤 의미에서 "transform"인지는 잘 모르겠다)
transfomer의 장점?
O(n**2 x d
)한 건 여전히 무시할 수 없다. (의식을 했는지, Restricted 방식도 제안을 함)이 부분을 수학적 이해를 할 때 추가를 해보면 좋을 것 같습니다.
공통 질문