issues
search
ciplab
/
2019-winter-reading-project
0
stars
0
forks
source link
Transformer + XLNet + GTrXL
#2
Closed
kingsj0405
closed
4 years ago
kingsj0405
commented
4 years ago
발표관련 정보
발표자: 강효림
Attention is all you need, Vaswani2017, NIPS
XLNet: Generalized Autoregressive Pretraining for Language Understanding, Yang2019, NIPS
STABILIZING TRANSFORMERS FOR REINFORCEMENT LEARNING, Parisotto2019, ICRL2020
Material
어탠션 내 발표.pdf
xlnet.pptx
Reference
어텐션 메커니즘과 transfomer(self-attention)
kingsj0405
commented
4 years ago
Attention is all you need
논문 정보
NIPS 2017
Task
Translation
문제점 착안
RNN 계열에서는 LSTM과 GRU가 주로 사용되고 있었다
Method
Input은 영어
Output은 일본어 + Masking
Output Probability는 일본어의 Masking된 부분
Embedding은 WordToVec
Positional Encoding(adding)을 해야한다(Permutation-Invariant Network라서!)
Multi-Headed Attention을 체크하면 Learnable Parameter는 Linear들이다(나머지는 그저 연산)
Multi-Headed Attention에서 왜 이게 Self-Attention인지 이해해야한다
Questions
Q1. 다른 task에 사용한다면?
A1. Encoder를 뽑아서 사용한다
Q2. 트레이닝은 어떻게 시키는가?
A2. (Encoder, Decoder)를 하나로 쭉쭉 올라간다
minostauros
commented
4 years ago
어탠션 내 발표.pdf
kingsj0405
commented
4 years ago
XLNet: Generalized Autoregressive Pretraining for Language Understanding
논문 정보
NIPS 2019
Task
Word Embedding
문제점 착안
Bert는 Masked LM과 Stacked Transformer를 사용했다
문제1: Masked LM은 무조건 한 번에 맞춰야한다!
문제2: AutoRegressive LM은 무조건 one direction이다!
문제3: Transformer는 Stateless RNN의 그것과 비슷해서
max_len
이상을 못 본다
문제4: Absolute Positioning Encoding은 이전에는 괜찮았지만 여기서는(Sol1, Sol2를 적용했다면) index를
거짓말해서
(이해 못함) 쓰면 안 된다(Vaswani2016)
Method
Sol1 for 문제1, 문제2: Permutation Language Model에서는 모든 경우의 수에 대해 다 학습을 하는데 그러면 잘 될 것이다...!
Sol2 for 문제3: 이전의 것을 받아오는데 constant로 받아와서 힌트는 받아오되 parallel computation은 가능하다
Sol3 for 문제4: Relative Positioning Encoding을 한다
발표관련 정보
Material
Reference