Rethinking Positional Encoding in Language Pre-training

https://arxiv.org/abs/2006.15595
2021 ICLR

本研究では、言語の事前学習（例：BERT）で使用される位置符号化法を調査し、既存の定式化におけるいくつかの問題点を明らかにする。まず、絶対位置エンコーディングにおいて、位置エンベッディングと単語エンベッディングに適用される加算演算は、2つの異種の情報資源の間に混在した相関をもたらすことを示す。これは、注目に不必要なランダム性をもたらし、モデルの表現力をさらに制限する可能性がある。第二に、記号\texttt{[CLS]}の位置を他の単語と同じように扱うことは、下流のタスクにおける特別な役割（文全体の表現）を考慮すると、合理的な設計であるかどうか疑問である。このような観点から、私たちは、TUPE (Transformer with Untied Positional Encoding) と呼ばれる新しい位置符号化方式を提案します。 TUPEは、自己言及モジュールにおいて、単語の文脈相関と位置相関を別々のパラメータ化で計算し、それらを加算します。この設計により、異種の埋込みに対する相関の混在やノイズを除去し、異なる投影行列を使用することで、より高い表現力を提供します。さらに、TUPEは、\texttt{[CLS]}シンボルを他の位置から解き放ち、すべての位置からの情報を容易に取り込むことができます。 GLUEベンチマークを用いた大規模な実験とアブレーション研究により、提案手法の有効性が実証されました。コードとモデルはこのhttpsのURLで公開されています。

https://github.com/guolinke/TUPE

1 INTRODUCTION

Transformerモデル（Vaswani et al., 2017）は、言語表現学習において最も広く使用されているアーキテクチャである（Liu et al., 2019; Devlin et al., 2018; Radford et al., 2019; Bao et al., 2020）。 Transformerでは、モデルの他の主要構成要素が配列順序に全く不変であるため、位置符号化は必須の構成要素となっています。オリジナルのTransformerでは、各位置に埋め込みベクトルを与える絶対位置符号化を採用しています。位置エンベッディングは単語エンベッディングに追加され、異なる位置にある単語の文脈表現の学習に大きく役立つことがわかっています。絶対位置エンコーディングの他に、Shaw et al. (2018); Raffel et al. (2019)はさらに、相対位置エンコーディングを提案している。これは、自己注意モジュール内に注意深く設計されたバイアス項を組み込み、任意の2つの位置間の距離をエンコードするものである。

本研究では、広く使われている絶対／相対的位置符号化の定式化を再検討し、研究する。まず、入力層に絶対位置埋め込みとともに単語埋め込みを加えることの合理性を問う。この2種類の埋め込みは明らかに異質であるため、この加算操作は位置情報と単語の意味の間に複雑な相関関係1をもたらす。

例えば、第1層の自己組織化モジュールのキーと値のドット生成機能を拡張すると、「単語」を使って「位置」を問い合わせたり、その逆を行ったりする明示的な用語が存在することがわかります。しかし、単語は文中のどこに出てくるかという相関が弱いだけかもしれません。我々の実証分析でも、よく訓練されたモデルでは、そのような相関はノイズになることを示して、これを支持しています。

第 2 に、BERT モデルは、自然言語の単語だけを扱うわけではないことに気付きました。通常、文には特別な記号[CLS]が付けられています。この記号は、すべての位置から有用な情報を受け取り、要約することが広く認知されており、 [CLS]の文脈表現は、下流のタスクにおいて文の表現として使用される。 [CLS]記号の役割は、自然に意味を含む通常の単語とは異なるため、その位置を文中の単語の位置と同じように扱うと効果がないことを主張する。例えば、この記号に相対位置符号化を適用すると、ある頭の注意分布が最初の数語に偏ってしまい、文全体の理解に支障をきたす可能性が高い。

上記の調査に基づいて、私たちは現在の手法にいくつかのシンプルで効果的な修正を提案し、言語の事前学習のためのTransformer with Untied Positional Encoding (TUPE)と呼ばれる新しい位置情報エンコーディングを導き出しました（図1参照）。

TUPEでは、Transformerは入力として単語の埋め込みのみを使用します。自己注目モジュールでは、情報のさまざまな側面を反映するために、単語の文脈的相関や絶対的（および相対的）位置的相関など、異なる種類の相関が別々に計算されます。各種類の相関にはそれぞれパラメータがあり、注目度の分布を生成するために加算されます。さらに[CLS]記号に特化した位置相関を設定し、文のグローバルな表現を正しく捉えることを目指しています。まず、TUPEでは、位置相関と単語の文脈相関が切り離され、異なるパラメータを用いて計算されていることがわかる。これにより、単語と位置（または位置と単語）の相関に含まれるランダム性を排除し、単語や位置のペアの関係を表す表現力を高めることに成功している。

次に、TUPEは[CLS]記号と他の位置との相関を計算するために、異なる関数を使用しています。このような柔軟性は、モデルが文全体の正確な表現を学習するのに役立ちます。我々は、TUPEの効率的な実装を提供する。この手法を検証するために，GLUEベンチマークデータセットを用いた大規模な実験とアブレーションの研究を行った．実証実験の結果、我々の提案するTUPEは、ほぼすべてのタスクにおいてモデルの性能を一貫して向上させることが確認された。特に、位置情報を符号化するためにこの誘導バイアスを課すことで、モデルをより効果的に学習することができ、事前学習段階の学習時間を大幅に改善できることを確認した。

2 PRELIMINARY

2.1 ATTENTION MODULE

注意モジュール(Vaswani et al., 2017)は、キーと値のペアで辞書を照会するように定式化され、例えば、Attention(Q, K, V ) = softmax( QKT / √ d )V 、ここで、dは隠れた表現の次元であり、Q(Query)、K(Key)、V(Value)は前の層の隠れた表現として指定される。注目モジュールには、異なる表現のサブスペースからの情報をモデルが共同で注目することを可能にするマルチヘッドバリアントが一般的に使用されており、次のように定義されます。

ここで、W Q k∈R d×dK , W K k∈R d×dK , WV k∈R d×dV , WO∈R HdV ×dは学習可能なプロジェクト行列、Hはヘッドの数、dKとdVはKeyとValueの次元数である。自己注目モジュールは、TransformerとBERTエンコーダにおける重要なコンポーネントの1つです（Devlin et al. 簡単にするために、シングルヘッドのセルフアテンション・モジュールを使用し、デモのためにdK = dV = dとする。 x^l = (x^l 1 , x^l 2 - - , x^l n ) をl番目の層の自己注意モジュールへの入力とし、nはシーケンスの長さ、各ベクトルx^l i∈R dは位置iのトークンの文脈表現であり、z^l = (z^l 1 , z^l 2 - - , z^l n ) は注意モジュールの出力である。そして、自己注目モジュールは次のように書くことができます。

このように、自己注意モジュールは、配列の順序を利用していない、つまり、順列不変であることがわかります。しかし、自然言語はよく構造化されており、言語理解には語順が重要です（Sutskever et al. 次のセクションでは、Transformerモデルに位置情報を組み込むためのさまざまな方法を提案したいくつかの先行研究を示します。

2.2 POSITIONAL ENCODING

一般的に、Transformerモデルの位置情報をエンコードする方法は、絶対位置エンコードと相対位置エンコードの2種類に分類されます。

絶対位置符号化。

オリジナルのTransformer(Vaswani et al., 2017)は、絶対位置符号化を用いて位置を表現することを提案しています。具体的には、各位置iに（学習可能な）実値ベクトルpi∈R dを割り当て、文が与えられれば、位置iの単語埋め込みwiにpiを追加し、wi＋piをモデルの入力として、例えば、x^1 i＝wi＋piとします。このようにして、Transformerは、異なる位置から来る単語を区別し、各トークンに位置依存の注意を割り当てることができます。例えば、第1層の自己注目モジュールでは、次のようになります。

相対位置エンコーディング。

絶対位置エンコーディングでは、異なる位置iに異なるpiを使用することで、Transformerが異なる位置にある単語を区別するのに役立ちます。しかし、Shawら(2018)で指摘されているように、絶対位置エンコーディングは、相対的な単語の順序を捉えるモデルとしては有効ではありません。そこでShawらは、絶対的な位置符号化を用いる以外に、注意モジュールの学習を助ける帰納的なバイアスとして、相対的な位置符号化を提案しています。

ここで、a^l j-i∈R dは学習可能なパラメータであり、層lにおける相対位置j - iの埋め込みと見なすことができる。このように、a^l j-iを埋め込むことで、相対的な単語の順序を明示的にモデル化することができる。 T5（Raffel et al., 2019）では、Query-Key積のa^l j-1を排除することでさらに単純化しています。

各j - iに対して、bj-iは学習可能なスカラ2であり、すべての層で共有されます。

3 絶対位置符号化によるトランスフォーマー

3.1 位置と単語の相関関係の解消

絶対位置符号化では、位置の埋め込みと単語の埋め込みを足し合わせてニューラルネットワークの入力とします。しかし、この2つの情報は異質なものです。単語埋め込みは、単語の意味を符号化しており、単語の類推課題は、単語埋め込みに対する単純な線形演算を用いて解くことができる（Mikolov et al.2013; Pennington et al.2014; Joulin et al.2016）。一方、絶対位置埋め込みは、配列中のインデックスを符号化するもので、意味的には単語の意味とはかけ離れている。私たちは、単語の埋め込みと位置の埋め込みの間の線形演算の合理性に疑問を持ちます。そこで、式(3)の展開図を見てみることにする。

上の展開図は、注意モジュールにおいて、単語の埋め込みと位置の埋め込みがどのように投影され、どのように照会されるかを示しています。展開の後には、単語間、単語と位置、位置と単語、位置と位置の相関関係という4つの用語があることがわかります。

この定式化に関して、いくつかの懸念があります。まず、最初の項と最後の項がそれぞれ単語-単語、位置-位置の関係を特徴づけることは容易に理解できます。しかし、投影行列WQ,lとW K,lは両方の項で共有されています。位置の埋め込みと単語の埋め込みは大きく異なる概念を符号化しているので、このような異なる情報に同じ投影を適用することは合理的ではない。さらに、第2項と第3項では、単語（位置）で構成されるキーを得るために、位置（単語）をクエリとして使用していることにも気づく。我々が知る限り、文中の単語とその位置に強い相関関係があることを示唆する証拠はほとんどない。

さらに、BERT および RoBERTa（Liu et al.、2010 年）のような最近開発された高度な方法では、文はランダムな方法でパッチが当てられます。例えば、BERT では、各入力には複数の文が含まれており、文の一部は次の文予測課題を形成するために、他の文書から負にサンプリングされる。バッチングのランダムなプロセスにより、ある単語が任意の位置に出現する可能性があり、単語と位置の間の相関が弱い可能性があります。これをさらに調査するために、式（6）の4つの相関関係を、事前に訓練されたBERTモデル上で視覚化します。その結果、図2に示すように、第2項と第3項は、位置によらず一様に見えることがわかりました。この現象は、単語と絶対位置の間に強い相関3 がないことを示唆しており、そのようなノイズの多い相関を使用することは、モデルのトレーニングには非効率的である可能性があります。

我々の修正

これらの問題を解決するために、我々は、異なる投影行列を用いて、一対の単語または位置の関係を直接モデル化し、中間の2つの用語を削除することを提案する。即ち、我々は

ここで，U Q，UK∈R d×dは位置埋め込みのための投影マトリクスであり，スケーリング項√1 2dはαijの大きさを保持するために用いられる（Vaswani et al, 2017）．ビジュアル化したものを図3に置く。

我々の提案した方法は、式（5）を次のように変更するだけで、Raffel et al.（2019）の相対的位置符号化とうまく組み合わせることができる。

3.2 [CLS]シンボルの位置からの解除

言語表現学習において、Transformerモデルへの入力シーケンスは、必ずしも自然な文ではないことに注意してください。 BERTでは、入力文の先頭に特別な記号[CLS]が付けられている。この記号は、文全体のグローバルな情報を把握するように設計されています。その文脈表現は、事前学習の後、文レベルの下流タスクで予測を行うために使用されます（Devlinら、2018年、Liuら、2019年）。我々は、注意モジュールにおいて、このトークンを他の自然な単語と同じように扱うと、いくつかのデメリットがあると主張している。例えば、通常の単語は通常、文の中で強い局所依存性を持っています。多くのビジュアライゼーション（Clark et al., 2019a; Gong et al., 2019）は、いくつかのヘッドの注目分布が局所的に集中することを示している。 [CLS]の位置を自然言語の単語の位置と同じように処理すると、前述の局所的な集中現象によれば、[CLS]は文全体ではなく最初の数単語に集中するように偏る可能性が高くなります。その結果、下流のタスクのパフォーマンスが低下する可能性があります。

我々の修正

[CLS]記号を他の位置から解放するために、注目モジュールに特別な設計を施しました。具体的には、[CLS]に関連する位置相関をリセットする。例えば、式(7)の絶対位置符号化を用いた場合、 vij = 1 /√2d (piU Q)(pjU K) T、式(8)の相対位置符号化を用いた場合、 vij = 1/ √2d (piU Q)(pjU K) T + bj-i となる。 vijの値をリセットするには、次の式を用います。

ここで，θ = {θ1, θ2} は学習可能なパラメータである．その様子を図4に示します。

3.3 実装の詳細と考察

上の2つのサブセクションでは、位置と単語の間の相関を解く（式(7)と式(8)）、[CLS]シンボルを他の位置から解く（式(9)）ためのいくつかの修正を提案しました。これらを組み合わせることで、新しい位置符号化方式が得られ、これをTUPE（Transformer with Untied Positional Encoding）と呼ぶことにする。 TUPEには2つのバージョンがあります。 1つ目は、[CLS]記号をアンタイドにした絶対位置符号化（式(7)＋式(9)）、2つ目は、相対位置符号化（式(8)＋式(9)）を追加して使用するバージョンです。これらをそれぞれTUPE-A、TUPE-Rと呼び、その数学的定式化を以下に示す。

マルチヘッド版、パラメータの共有、効率化。

TUPEは、マルチヘッドバージョンに簡単に拡張することができる。我々の実装では、位置iに対する絶対位置エンベッディングpiは異なるヘッド間で共有されるが、各ヘッドでは投影行列U QとU Kが異なる。また、相対的な位置の符号化については、bj-iがヘッドごとに異なる。また、リセットパラメータθもヘッドごとに共有されていません。効率化のために、（複数ヘッドの）投影マトリクスU QとU Kを異なる層で共有する。したがって、TUPEでは、総パラメータ数はあまり変わりません。 BERT-Baseを例にとると、約118万個（2×768×768）の新しいパラメータを導入していますが、これはBERT-Baseの1億1000万個のパラメータの約1%に過ぎません。また、TUPEによる追加の計算コストはほとんどありません。位置相関項 1/√2d (piU Q)(pjU K) T はすべての層で共有されているため、最初の層で計算するだけで、その出力を他の層で再利用することができます。

絶対/相対位置の符号化はお互いに冗長なのか？

式(11)の絶対位置符号化と相対位置符号化は、どちらも無内容な相関関係を記述しているので、どちらかが冗長であると考えるかもしれません。これを正式に検討するために、Bを各要素Bi,j = bj-iとするn×n行列とします。定義により、Bはトエプリッツ行列である(Gray, 2006)。また，P を n × n の行列として表し，i 番目の行を pi とすると，行列形式での絶対位置相関は，1/√2d (P U Q)(P UK) T となる． Bと1 /√2d (P U Q)(P UK) Tの表現力については，まずBが以下の命題から同様に因数分解できることを示すことで検討する．

命題1

任意のToeplitz行列B∈C n×nは、B = GDG∗ に因数分解できる。ここで、Dは2n×2nの対角行列である。 Gは複素空間のn×2nヴァンデルモンデ行列で、各要素Gj,k = 1 /2n e^{iπ(j+1)k/n}、G∗はGの共役転置である。

証明は付録Aにある。 Bと1/√2d (P U Q)(P UK) Tの2つの項は、実際にはRn×nの異なる部分空間を形成しています。マルチヘッド版では、行列U QとU kの形状はd × d H 。したがって、(P U Q)(P UK)Tは、Rn×nにおける低ランク行列を特徴づけることができます。しかし、命題から、BはRn×nの線形部分空間を形成し、2n - 1個の自由度しかなく、1/√2d (P U Q)(P UK) Tの空間とは全く異なることがわかります。また、この2つの用語を併用することが不可欠な実用上の理由もあります。先に述べたように、Raffelら（2019）では、相対距離j - iの範囲は、すべての相対位置が同じ値を割り当てることができるオフセットを超えたところまで切り取られる。このような状況では、相対位置の符号化では、遠くにある単語を区別できない可能性があり、1/√2d (piU Q)(pjU K)Tは、補完的な情報を符号化するために使用することができる

4 EXPERIMENT

提案されたTUPEの性能を検証するために、広範な実験を行い、その結果をこのセクションで示します。論文の本文では、BERT-Base設定の下でTUPEを研究します（Devlin et al.、2018）。付録BおよびCでは、BERT-Large設定およびELECTRA設定（Clark et al., 2019b）の下でのTUPEの適用に関するすべての実験の詳細およびより多くの結果を提供する。

4.1 EXPERIMENTAL DESIGN

すべての実験にBERT-Base（110Mパラメータ）アーキテクチャを使用する。具体的には、BERT-Baseは、12のTransformer層から構成されています。各層において、隠れたサイズは768に設定され、注目ヘッドの数は12に設定されています。 TUPE-AおよびTUPE-Rと比較するために、対応する2つのベースラインを設定しました。絶対位置符号化を用いた標準的なBERT-BaseであるBERT-A（Devlin et al., 2018）、絶対位置符号化と相対位置符号化の両方を用いたBERT-R（Raffel et al., 2019）である（式（5））。 Devlinら（2018）に従い、事前学習には英語版WikipediaコーパスとBookCorpus（Zhuら、2015）を使用する。この2つのデータセットを連結することで、およそ16GBのサイズのコーパスが得られる。語彙サイズ（サブワード・トークン）は32,768とした。下流のタスクとしてGLUE（General Language Understanding Evaluation）データセット（Wang et al.2018）を使用して、事前学習したモデルの性能を評価します。すべてのコードは、PyTorch（Paszke et al., 2017）の fairseq（Ott et al., 2019）に基づいて実装されています。すべてのモデルは、16台のNVIDIA Tesla V100 GPUで混合精度で実行されます（Micikevicius et al.

4.2 OVERALL COMPARISON

全体の比較結果を表1に示す。まず、TUPE-AとTUPE-Rの両方がベースラインを大きく上回っていることが容易にわかります。特に、TUPE-Rは、GLUE平均スコアで最高のベースラインであるBERT-Rを1.38ポイント上回り、ほぼすべてのタスク、特にMNLI-m/mm、CoLA、MRPCで一貫して優れています。また、TUPE-RはTUPE-Aよりも0.57ポイント優れていることがわかります。 3.3節で述べたように，絶対位置と相対位置の符号化を併用することは冗長なように見えますが，お互いに補完的な情報を捉えています。最終的な性能の他に、異なる手法の効率性についても検討した。図5aに示すように，TUPE-A（TUPE-R）は，事前学習時にベースラインよりも小さな検証損失を達成している。表1および図5cに示すように、TUPE-A（TUPE-R）は、30%の事前トレーニングステップのみで、ベースラインよりも優れたGLUE平均スコアを達成することができます。

同様の改善は、BERT-LargeおよびELECTRAの設定でも見られます（Table. 3およびTable. 4 (付録C)を参照してください。

TUPEでは、単語と位置の間の相関が取り除かれているため、入力文のばらつきを考慮することなく、位置に対する注目パターンを簡単に視覚化することができます。 TUPE-A（図6参照）では、主に5つのパターン（12個のヘッドから）があることがわかります。 (1)全体に注意を向ける、 (2)局所に注意を向ける、 (3)広範囲に注意を向ける、 (4)前の位置に注意を向ける、 (5)次の位置に注意を向ける。

興味深いことに、このモデルはランダムな初期化からこれらのパターンを自動的に抽出することができます。局所的に強い依存性を持つ注意パターンもあるため、我々が提案する[CLS]を解く方法が必要となる。 TUPE-Rでも同じようなパターンが見られた。以上の比較により、提案したTUPEの有効性と効率性が示された。 TUPEとベースラインの唯一の違いは位置のエンコーディングであるため、これらの結果はTUPEがシーケンスの位置情報をよりよく利用できることを示している。以下のサブセクションでは、TUPEの各修正点を検証し、それが有用であるかどうかを確認します。

4.3 ABLATION STUDY

[CLS]シンボルを他の位置からun tieする。

CLS]を解くことによってもたらされる改善を検討するために、式10のリセット関数を除去した位置符号化法を評価する。これをTUPE-Atie-clsと呼び、同じ構成でこのモデルを学習する。また，TUPE-Atie-clsの性能を表1に示す．この表から、TUPE-AはTUPE-Atie-clsよりも、特にCoLAやRTEなどのリソースの少ないタスクで安定して動作することがわかります。

位置と単語の相関関係を解く。

まず、表1から、TUPE-Atie-clsがBERT-Aよりも優れていることが容易にわかります。 TUPE-Atie-clsとBERT-Aの唯一の違いは、absolutionの位置エンコーディングの処理方法であるため、位置と単語の間の相関関係を解くことは、モデルのトレーニングに役立つという結論を得ることができます。これをさらに調査するために、BERT-Aをベースに、単語と位置に異なる投影行列を使用する別の符号化法、BERT-Adを設計する。形式的には、BERT-Ad では、alpha_ij =

となります。したがって、異なる投影行列（BERT-A 対 BRET-Ad）を使用することにより、モデルを改善できるかどうか、また、単語と位置および位置と単語の相関関係を除去すること（BRET-Ad 対 TUPE-Atie-cls）により、最終的な性能が損なわれるかどうかを確認することができる。表 1 のまとめられた結果から、TUPE-Atie-cls は、BERT-Ad よりもわずかに優れており（0.17）、より計算効率が高いことがわかりました4 。 BERT-A は、最も悪い結果となりました。これらの結果は、異なる投影行列を使用することでモデルが改善され、単語と位置の相関を削除しても性能に影響しないことを示しています。

まとめ。

上記の分析から、[CLS]の紐付けを解除することで、CoLAやRTEなどの低リソースのタスクに大きく役立つことがわかりました。位置相関と単語相関を解くことは、MNLI-m/-mmのような高リソースのタスクに役立ちます。これらを組み合わせることで、TUPEはすべてのGLUEタスクで一貫して優れた性能を発揮することができます。また、位置符号化戦略の修正に関しては、いくつかの失敗例があります（付録D参照）。

5 RELATED WORK

Sec.2で紹介したように、Shaw et al. (2018)はTransformerに相対位置エンコーディングを活用した最初の作品です。他の作品のほとんどは、Shaw et al.（2018）に基づいています。例えば、Transformer-XL (Dai et al., 2019) は、相対的な位置エンコーディングを直接統合するために自己注視を再パラメータ化しています。 T5(Raffel et al., 2019)は、Shawら(2018)の相対位置のベクトル表現をスカラーに簡略化しました。 Heら（2020）では、相対位置の位置と単語の相関を加えてShawら（2018）を拡張した。 (Kitaev & Klein, 2018)では、Transformerエンコーダで位置情報と内容情報を分離することで、コンピュテンシーパーサーの改善につながることを示している。我々は、このような切り離しが一般言語の事前学習においてもTransformerを改善することを数学的に示している。 Transformerの絶対位置符号化を強化するための平行した研究は他にもありますが、我々の研究とは直接関係ありません。例えば、Shiv & Quirk (2019)は、Transformerにおけるシーケンス位置符号化をツリーベースの位置符号化に拡張し、Wangら (2019)は、位置符号化を複素値領域に拡張し、Liuら (2020)は、位置符号化を動的システムによってモデル化した。

6 結論

私たちは、単語と位置の相関を解くことと、[CLS]を配列位置から解くことの2つの面で既存の手法を改善するTUPE（Transformer with Untied Positional Encoding）を提案する。具体的には、まずTransformerの入力から絶対位置エンコーディングを除去し、self-attentionモジュールで位置相関と単語相関を異なる投影行列で別々に計算します。そして、[CLS]に関連する位置相関をリセットすることで、[CLS]を解いていきます。広範な実験により、TUPEはGLUEベンチマークではるかに優れた性能を達成することが実証された。さらに、位置情報に対するより良い帰納的バイアスにより、TUPEは30%の事前学習の計算コストしか使わずに、ベースラインを凌駕することができる。

e4exp / paper_manager_abstract