wisteria2gp / DataScience_survey

0 stars 0 forks source link

Fixed Encoder Self-Attention Patterns in Transformer-Based Machine Translation #23

Open wisteria2gp opened 4 years ago

wisteria2gp commented 4 years ago

一言でいうと

https://twitter.com/icoxfog417/status/1232469101240438784?s=20 以下引用

TransformerのAttention Headはだいたい単純で同じパターンなので(現在のトークン、前/後のトークンetc) 
わかりきったパターンを学習せず固定して残ったHead1つのみを学習させる手法を提案。学習データが少なく済み
低リソース言語の翻訳でフル学習よりBLEUが向上、中~大規模でもそれほど低下なし。

論文リンク

https://arxiv.org/abs/2002.10260

著者/所属機関

Alessandro Raganato, Yves Scherrer, Jörg Tiedemann

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

結果

コメント

21 同様、Transformerの内部構造を改良したモデルの論文