eubinecto / k4ji_ai

4명의 김씨, 한명의 진씨, 한명의 임씨가 모여서 인공지능을 공부하고 있습니다.
13 stars 0 forks source link

Introduction #21

Open eubinecto opened 3 years ago

eubinecto commented 3 years ago

간단 요약

  1. transduction problem 도메인에서의 SOTA 였던 RNN기반 모델
    • vanila RNN, LSTM, 그리고 가장 최근에는 GRU.
  2. 그런 RNN기반 모델들의 근본적인 제약: sequential computation
    • ht를 구하기 위해서는 ht-1이 필요하다. 또 ht-1을 구하기 위해서는 ht-2가 필요하다.
    • 즉 반드시 각 sequence의 첫 토큰부터 마지막 토큰까지 for loop을 돌아야 한다. 때문에 병렬적인 연산이 불가능하다.
    • 이런 제약은 특히 길이가 긴 문장을 학습할 때 도드라진다.
    • factorisation tricks, conditional computation 등의 방법으로 호율적인 연산을 해내고자 하는 노력은 있었으나, RNN기반 모델의 근본적인 제약인 sequential computation은 여전하다.
  3. 그런 제약을 줄여보기 위한 흥미로운 시도: attention mechanism
    • 하지만 여전히 대부분은 RNN기반 모델과 결합되어 사용 중. 때문에 2번에서 언급하는 제약은 여전히 존재.
  4. "attention is all you need": recurrence를 완전히 버리고, 오직 attention mechanism만을 사용해보자.
    • transduction problem 도메인에서 SOTA를 기록함.
    • global dependency 가 가능하다.
    • (RNN + attention 보다) 훨씬 더 병렬적이고, 때문에. 훈련시간도 빠르다. gpu 8개로 12시간만 훈련한걸로 SOTA를 찍음.