task : efficient Transformer -> Machine Translation, Language Modeling, Representation leaning in Graph, Image Classification
problem : self-attention 연산의 $O(n^2)$이 비효율적이다
idea : 인풋 시퀀스를 그래프로 보고 attention 연산을 연결된 node에 대해서만 하자
architecture : LSTM을 통해 source node가 주어졌을 때 target edge predicting, 이후 연결된 edge들에 대해서만 self-attention 수행
objective : ground truth edge를 알 수 없기 때문에 edge training을 할 때에는 self-attention 까지 한 후의 성능을 reward로 주는 policy gradient 를 적용. self-attention의 경우 각 task에 맞는 loss.
paper
TL;DR
Details