ETC: Encoding Long and Structured Inputs in Transformers

https://arxiv.org/abs/2004.08483
EMNLP2020

トランスフォーマーモデルは、多くの自然言語処理（NLP）タスクにおいて、その技術水準を向上させてきました。本論文では、標準的なTransformerアーキテクチャの2つの重要な課題、すなわち、入力長のスケーリングと構造化された入力の符号化に対応する、新しいTransformerアーキテクチャ、Extended Transformer Construction（ETC）を紹介する。長い入力に対応するために、グローバルトークンと通常の入力トークンの間に、新しいグローバル-ローカルアテンションメカニズムを導入する。また、グローバル・ローカルアテンションを相対的な位置の符号化とContrastive Predictive Coding (CPC)の事前学習目的と組み合わせることで、ETCが構造化された入力を符号化できることを示している。長い入力や構造化された入力を必要とする4つの自然言語データセットにおいて、最先端の結果を得ることができた。

結論

本論文では、 (1)入力長のスケールアップ（入力に対して線形）、 (2)構造化された入力の符号化を目的として設計されたアーキテクチャである、ETC（Extended Transformer Construction）を紹介しました。 ETCは、既存のBERTモデルから重みを増し、結果を大幅に改善することができます。その鍵となるアイデアは、新しいグローバルアテンションメカニズムと、相対的な位置のエンコーディングおよびCPCの事前トレーニングタスクです。我々は、入力シーケンスの長さを長くすることで、大きな利益が得られることを示しました。また、ETCでデータセットの構造を表現することで、モデルの品質がさらに向上しました。 CPC は MLM に似た役割を果たしていますが、グローバルな入力レベルであることから、CPC は高レベルのグローバルな入力サマリートークンの使用法をモデルに学習させるのに役立つという仮説を立てました。我々のデータセットには（グラフデータセットと比較して）限られた量の構造しか含まれていませんが、我々の実験ではETCがこの既存の構造を利用できることを示しています。今後の課題として、Reformer (Kitaev et al., 2020)やRouting Transformer (Roy et al., 2020)のような補完的な注目メカニズムを調べたり、RevNet (Gomez et al., 2017)のようなアイデアでスケーラビリティを推し進めたり、さらに構造が豊富なデータセットでのETCの性能を調べたりしたいと考えています。

e4exp / paper_manager_abstract

ETC: Encoding Long and Structured Inputs in Transformers #297