tm4roon / survey

Survey on machine learning.

14 stars 1 forks source link

Faster Transformer Decoding: N-gram Masked Self-Attention #65

Open tm4roon opened 4 years ago

tm4roon commented 4 years ago

Faster Transformer Decoding: N-gram Masked Self-Attention

Transformerのdecode時に、self-attentionの範囲をn-gramに制限することで計算コストを抑えてdecodeする手法を提案。モデルの性能を損なうことなく、出力時の計算コストを抑えることができる。

文献情報

著者: Ciprian Chelba, Mia Chen, Ankur Bapna, Noam Shazeer
リンク: https://arxiv.org/abs/2001.04589
学会: arXiv