eubinecto / k4ji_ai

4명의 김씨, 한명의 진씨, 한명의 임씨가 모여서 인공지능을 공부하고 있습니다.
13 stars 0 forks source link

공통 질문 & 느낀점 정리해보기 #36

Open eubinecto opened 3 years ago

eubinecto commented 3 years ago

공통 질문

  1. 저자는 어떠한 문제를 해결하고자 하였는가?
  2. 그 문제를 해결한 방법은 무엇인가?
    • encoder-decoder 구조
    • scaled-dot product
    • multihead attention
    • positional encoding
    • self-attention
  3. 그 방법의 구현 방법에 대한 이해
  4. 그 방법의 장점은 무엇인가?
  5. 그 방법의 단점 / 한계는 무엇인가?
  6. 논문을 코드로 구현 해볼 수 있는 예제?
  7. 이 논문을 이해하는 것이 본인에게 어떤 식으로 도움이 될 수 있는가? - 이 부분을 "느낀점"이라고 생각하시면 될 것 같습니다.
eubinecto commented 3 years ago

@teang1995 @eubinecto

공통질문

저자는 어떠한 문제를 해결하고자 했는가?

궁극적인 목표

궁극적으로 풀고자하는 문제는 transduction problem 이다. 특히 기계 번역, 음성 인식 등 자연어 처리 분야의 문제를 해결하는 것에 집중함.

해결하고자 하는 문제

attention 메커니즘이란?

self-attention이란?

논문에서

요약하자면

transduction problem을 풀기위한 기존의 방법으로는 RNN, CNN을 encoder-decoder 구조로 활용하는 방법이 있었는데, 이 두 방법은 입력의 길이가 길어질 경우 학습이 어렵다는 점과, 병렬적인 연산이 불가능하다는 근본적인 문제가 있다.

첫번째 문제의 경우, attention 개념을 적용해 RNN + attention / CNN + attention으로 어느 정도 해결이 가능했으나, 병렬적인 연산이 불가능 하다는 것은 RNN과 CNN의 구조로부터 기인하는 문제이기 때문에, attention을 적용하더라도 해결할 수가 없다.

그 문제를 해결한 방법은 무엇인가?

recurrence를 완전히 버리고, 어텐션만을 사용해보자. "Attention is all you need"이다. 새롭게 제안한 모델은 오직 attention 메커니즘만을 활용해 transduction problem을 풀 수 있으며, Transformer 라고 명명함. (어떤 의미에서 "transform"인지는 잘 모르겠다)

그 방법의 구현 방법에 대한 이해

encoder-decoder의 역할

요약하자면

scaled- dot product의 역할

multi-head attention - 역할

positional encoding의 역할

그 방법의 장점은 무엇인가?

transfomer의 장점?

그 방법의 단점(한계)은 무엇인가?

논문을 코드로 구현해보는 예제

이 부분을 수학적 이해를 할 때 추가를 해보면 좋을 것 같습니다.