Open tm4roon opened 4 years ago
Transformerのdecode時に、self-attentionの範囲をn-gramに制限することで計算コストを抑えてdecodeする手法を提案。モデルの性能を損なうことなく、出力時の計算コストを抑えることができる。
Faster Transformer Decoding: N-gram Masked Self-Attention
Transformerのdecode時に、self-attentionの範囲をn-gramに制限することで計算コストを抑えてdecodeする手法を提案。モデルの性能を損なうことなく、出力時の計算コストを抑えることができる。
文献情報