issues
search
eubinecto
/
k4ji_ai
4명의 김씨, 한명의 진씨, 한명의 임씨가 모여서 인공지능을 공부하고 있습니다.
13
stars
0
forks
source link
Introduction
#21
Open
eubinecto
opened
4 years ago
eubinecto
commented
4 years ago
간단 요약
transduction problem 도메인에서의 SOTA 였던 RNN기반 모델
vanila RNN, LSTM, 그리고 가장 최근에는 GRU.
그런 RNN기반 모델들의 근본적인 제약: sequential computation
ht를 구하기 위해서는 ht-1이 필요하다. 또 ht-1을 구하기 위해서는 ht-2가 필요하다.
즉 반드시 각 sequence의 첫 토큰부터 마지막 토큰까지 for loop을 돌아야 한다. 때문에 병렬적인 연산이 불가능하다.
이런 제약은 특히 길이가 긴 문장을 학습할 때 도드라진다.
factorisation tricks, conditional computation 등의 방법으로 호율적인 연산을 해내고자 하는 노력은 있었으나, RNN기반 모델의 근본적인 제약인 sequential computation은 여전하다.
그런 제약을 줄여보기 위한 흥미로운 시도: attention mechanism
하지만 여전히 대부분은 RNN기반 모델과 결합되어 사용 중. 때문에 2번에서 언급하는 제약은 여전히 존재.
"attention is all you need": recurrence를 완전히 버리고, 오직 attention mechanism만을 사용해보자.
transduction problem 도메인에서 SOTA를 기록함.
global dependency 가 가능하다.
(RNN + attention 보다) 훨씬 더 병렬적이고, 때문에. 훈련시간도 빠르다. gpu 8개로 12시간만 훈련한걸로 SOTA를 찍음.
간단 요약