Universal Transformer - Githubissues

short summary

transformerの欠点を改善したuniversal transformerの提案。

transformerは、RNNがもつ再帰的な学習に対するinductive biasを持たず、通常のLSTMで解けるいくつかのタスクで苦戦する。そこで、transformerにおけるencoderの１ブロックを、並べるのではなく再帰的に適用する。

また、ACTの機構を入力系列の各シンボルごとに組み込んでいるが(adaptive universal transformer)、ここでは計算が終わったシンボルは次のiterationはそのまま値をコピーするということを全シンボルについてiterationが止まるまで行っている。（transformerのmulti-head self attentionの後のFFNは、シンボルごと）この機構により、計算量削減に加え、精度向上。

色々なアルゴリズム、言語理解タスクでいい結果、翻訳でvanilla transformer, lstmよりいい精度、bAbI linguistic reasoning taskとLAMBADA language modeling taskでSOTA。

Imgur

author

Mostafa Dehghani∗ † University of Amsterdam dehghani@uva.nl Stephan Gouws∗ Google Brain sgouws@google.com Oriol Vinyals DeepMind vinyals@google.com Jakob Uszkoreit Google Brain usz@google.com Łukasz Kaiser Google Brain lukaszkaiser@google.com

URL

https://arxiv.org/pdf/1807.03819.pdf

year

2018

kacky24 / papers

Universal Transformer #24

short summary

author

URL

year