Transformer + XLNet + GTrXL - Githubissues

ciplab / 2019-winter-reading-project

0 stars 0 forks source link

Transformer + XLNet + GTrXL #2

Closed kingsj0405 closed 4 years ago

kingsj0405 commented 4 years ago

발표관련 정보

Material

Reference

어텐션 메커니즘과 transfomer(self-attention)

kingsj0405 commented 4 years ago

Attention is all you need

논문 정보

NIPS 2017

Task

Translation

문제점 착안

RNN 계열에서는 LSTM과 GRU가 주로 사용되고 있었다

Method

Input은 영어
Output은 일본어 + Masking
Output Probability는 일본어의 Masking된 부분
Embedding은 WordToVec
Positional Encoding(adding)을 해야한다(Permutation-Invariant Network라서!)
Multi-Headed Attention을 체크하면 Learnable Parameter는 Linear들이다(나머지는 그저 연산)
Multi-Headed Attention에서 왜 이게 Self-Attention인지 이해해야한다

Questions

Q1. 다른 task에 사용한다면?
A1. Encoder를 뽑아서 사용한다
Q2. 트레이닝은 어떻게 시키는가?
A2. (Encoder, Decoder)를 하나로 쭉쭉 올라간다

minostauros commented 4 years ago

어탠션 내 발표.pdf

kingsj0405 commented 4 years ago

XLNet: Generalized Autoregressive Pretraining for Language Understanding

논문 정보

NIPS 2019

Task

Word Embedding

문제점 착안

Bert는 Masked LM과 Stacked Transformer를 사용했다
문제1: Masked LM은 무조건 한 번에 맞춰야한다!
문제2: AutoRegressive LM은 무조건 one direction이다!
문제3: Transformer는 Stateless RNN의 그것과 비슷해서 max_len 이상을 못 본다
문제4: Absolute Positioning Encoding은 이전에는 괜찮았지만 여기서는(Sol1, Sol2를 적용했다면) index를 거짓말해서(이해 못함) 쓰면 안 된다(Vaswani2016)

Method

Sol1 for 문제1, 문제2: Permutation Language Model에서는 모든 경우의 수에 대해 다 학습을 하는데 그러면 잘 될 것이다...!
Sol2 for 문제3: 이전의 것을 받아오는데 constant로 받아와서 힌트는 받아오되 parallel computation은 가능하다
Sol3 for 문제4: Relative Positioning Encoding을 한다