e4exp / paper_manager_abstract

0 stars 0 forks source link

Transformers Generalize Linearly #649

Open e4exp opened 3 years ago

e4exp commented 3 years ago

自然言語は、階層的に支配された依存関係のパターンを示し、単語間の関係は線形順序ではなく構文構造に敏感である。 再帰ネットワークモデルは、曖昧なデータで訓練されると、階層的に敏感な方法で一般化できないことが多いが(McCoy et al,2020)、新しいTrans-former言語モデル(Vaswani et al,2017)が、大規模なデータセットで訓練された様々な構文ベンチマークで性能が向上していることから(Goldberg,2019; Warstadtet al,2019)、これらのモデルが貧弱なデータに直面しても階層的な一般化を示すのではないかという疑問が生じている。

この論文では、Transformer sequence-to-sequenceモデルの構造的一般化のパターンを検討し、Transformerは多種多様な文法マッピングタスクで階層的に一般化できないだけでなく、同等のリカレントネットワークよりも線形一般化をさらに強く好むことを発見しました。

e4exp commented 3 years ago

1 はじめに

人間の言語が持つ基本的な特性の一つに,直線的な性質を持ちにくい要素間の関係に敏感であることが挙げられます。 主語と動詞の一致や再帰的アナフォラのような現象では,一致する動詞とその一致対象,再帰的代名詞とその前置詞の関係は,隣接性や再帰性のような線形特性に支配されるのではなく,文の階層的な構成に支配される。 同様に、ある文法理論では変換操作として、また別の文法理論では語彙規則として表現される、関連する文の関係も、階層的な組織に支配されています。 例えば、英語のpolar questionは、対応するdeclarativeの助動詞を文頭の位置に前置します。

(1a)のような複雑な主語を持つ質問では、このような場合に前に出される動詞は、線形的な考慮(MOVE-FIRST yielding (1c)やMOVE-LAST yielding (1d))ではなく、階層的な優位性(すなわち、MOVE-MAIN yielding (1b))によって決定されることを示しています。

(1) a. [The president who can smile] will lead [things who would sing].

b. Will the president who can smile lead those who would sing? c. * Can the president who smile will lead those who would sing? d. * Would the president who can smile will lead those who __ sing?

Chomsky (1971)は、階層的に支配された依存関係の必要性を明確に示すような(1b)のような形式の入力がほとんどないにもかかわらず、子供たちは質問形成のプロセスを一様に階層的に一般化すると主張しています。 このような一貫した行動は、人間には階層的な一般化への何らかのバイアスが備わっていることを示唆している(ただし、この見解に対する反論はAmbridgeら(2008)およびPerforsら(2011)を参照)。 このような汎化の偏りを再現できれば、人間の認知や学習のパターンを模倣できることになる。

リカレント神経アーキテクチャのこれまでの調査では、階層的に支配された言語知識に関するいくつかの証拠が得られている(Gulordavaら、2018年、Marvin and Linzen、2018年、Huら、2020年)。 さらに大きな成功は、構文構造の明示的な表現を組み込んだニューラルネットワークで達成されている(Kuncoro et al.、2018)。 建築的に制約されたモデルを、構文構造に関する明示的な情報なしに訓練した場合には、ささやかな利益しか得られない(Shenら、2018年;Kimら、2019年;Merrillら、2019年)。 しかし、これらの研究はすべて、これらのベンチマークが評価するドメインでは困窮していないかもしれない大量のテキストで訓練されたモデルを対象としている。 そのため、これらの研究で報告されている見かけ上の階層的な挙動が、階層的な汎化へのバイアスの影響なのか、それとも学習データによって明示的に導かれたパターンの蓄積なのかは不明です。 McCoyら(2020)は、学習データを注意深く制御し、モデル自体が階層的な一般化を抽出するようにバイアスをかけた場合にのみ、階層的な振る舞いが現れるようにしています。 彼らの実験によると、リカレント・ニューラル・ネットワークのseq2seqモデルは、線形汎化を明らかに好むことが示されています。

最近開発されたTransformerアーキテクチャは、機械翻訳や質問応答など、自然言語処理の多くの分野で革命的な進歩をもたらしました(Vaswani et al., 2017; Devlin et al., 2019)。 また、Transformerベースのモデルは、階層的な抽象表現を必要とすると思われるベンチマークでかなりの成功を収めています(Rogersら、2021年、Goldberg、2019年、Warstadtら、2019年)。 さらに、トランスフォーマーの文の表現についての調査(Hewitt and Manning, 2019; Lin et al.

しかし、上述の理由により、Transformerの帰納的バイアスについて多くを結論づけることは困難である: それらは膨大なデータセットで訓練されており、訓練データとは対照的な帰納的バイアスの影響についての疑問が残されている(Warstadt and Bowman (2020)が、膨大なデータであっても十分ではないかもしれないという議論についてはVan Schijndel et al (2019)を参照)。

本論文は、データが階層的な一般化を過小に決定する場合に、Transformerアーキテクチャが階層的な一般化にどの程度偏っているかを検討することで、我々の理解に貢献する。 具体的には、配列から配列へのマッピングを学習するTransformerが構造に敏感な方法で一般化するかどうかを調べ、その性能をリカレントモデルと比較する。

e4exp commented 3 years ago

2 実験

本実験では,階層的に支配されたパターンを強調する様々な英語の変換タスクを用いた.それぞれのタスクにおいて、学習データは、線形と階層的な一般化の間で曖昧になっています。 これにより、トレーニングセットと同じ分布から抽出されたTESTセットと、階層的な一般化パターンにのみ一致する分布外のデータを含むGENセットの両方で性能を評価することができる。 トランスフォーマーモデルと、いくつかのリカレントアーキテクチャ(LSTMとGRUで、注意なし、加法的注意あり(Bahdanau et al.2016)、乗法的注意あり(Luong et al.2015))を比較する。 Transformerモデルは、自己および多頭の注意を伴う通常の実装に従います。 各モデルタイプについて,異なるランダムな初期シードで初期化された10回の実行を行い,中央値の精度メトリクスを報告する。 Recurrentユニットは単層モデルで、隠れた次元と埋め込みの次元は256です。 トランスフォーマーは4頭身の3層モデルで,隠れた次元と埋め込みの次元は128です. すべてのモデルは、SGD最適化を用いて学習率0.01で100エポックを行い、早期に停止させます。

2.1 Polar Question Formation

最初のタスクは、先に述べた質問形成のプロセスです。 トレーニングデータセットは、入力文(主語と目的語を修飾する相対句を任意に含む単純な宣言文)、変換トークン、D E C L または Q U E S T、および出力文から構成されます。 変換トークンは、ターゲットとなる出力の形式を指定します。 例(1)のように、主語を修飾する関係詞を持つ例は、Q U E S T 変形トークンと学習データの中でペアになることはありません。 そのため、助動詞が相対節を挟んで前に出なければならないような文は学習されておらず、目標とする一般化はMOVE-MAINとMOVE-FIRSTのような曖昧なものになります。 MOVE-FIRSTの一般化を獲得したネットワークは、学習データと同じ構造の例で構成される配布中のTESTセットでは成功するが、主語-相対節を持つ入力文とQ U E S T 変形で構成されるGENセットでは失敗する。 学習したすべてのネットワークタイプが配布されたTESTセットで良好な結果を示し、平均して95%以上のフルセンテンス精度を達成した。 一方、GENセットでは、どのモデルも全文精度で成功しなかった。

McCoyら(2020)に倣い、我々はGENセットの性能を、より寛大な指標である第一語精度を用いて評価した。 GENセットには、主節と相対節に明確な助動詞を持つ文のみが含まれているため、最初の出力語の同一性によって、ネットワークが線形(MOVE-FIRST)または階層的(MOVE-MAIN)な汎化を獲得したかどうかが明らかになります。

結果を図1に示す。 McCoyら(2020)で述べられているように、リカレントネットワークの種類によって性能にばらつきがある。 乗算注目のGRUは,中央値で32.9%の精度を達成した. 一方、Transformerは、今回の調査対象となったすべてのアーキテクチャの中で最も低い性能(中央値)を示しており、第1単語の精度(中央値)はわずか0.03%で、ランダムな初期化の違いによる変動はほとんどありませんでした。 その代わり、Transformerモデルは、GENセット上で線形MOVE-FIRSTルールと一致する配列を圧倒的に予測しました。 これらの結果は、学習率の変化に対しても頑健である。

image

2.2 時制の再帰

2つ目のマッピング課題は、McCoyら(2020)からの借用で、過去時制の動詞を持つ文を、過去時制または現在時制の動詞を持つ文に再帰させるというものです。 英語の現在形には、動詞の主語との構造的な条件付きの一致が含まれます。 (2a)のような複雑な表現では、主語の中に数の異なる散漫な名詞があり、動詞と主語が直線的に離れていますが、それでも文法的な一致は、AGREE-RECENT関係(予測(2c))ではなく、階層的なAGREE-SUBJECT関係(予測(2b))に支配されています。

(2) a. My newt near the elephants ran. b. My newt near the elephants runs. c. * My newt near the elephants run.

このデータセットは,過去形の英文を入力とし,主語や目的語を修飾する前置詞句や関係詞節を任意に加え,ターゲットとなる出力の形式を示すPRESおよびPAST変換トークンを加えたものである. トレーニングデータおよび配布中のテストデータでは、PRESトークンを持つ例は主語が修飾されていないため、再帰反射のマッピングはAGREE-SUBJECTとAGREE-RECENTの間で曖昧になります。 一方、GENセットには、2つのルールが異なる予測をする文が含まれています(modified subject with distractor having distinct number)。 結果を図2に示します。リカレントアーキテクチャと同様に、Transformerは階層的なものではなく、線形的な一般化を行うことに失敗しています。

image

2.3 否定

3つ目の課題は、肯定文を否定文に変換することです。 否定は、主動詞の直前に「not」という否定マーカーを挿入する必要があります。

(3) a. The bird will sing. b. The bird will not sing.

副詞節が主節の前後に置かれた場合(4)、主動詞は一貫して文中の直線的に最初または最後の動詞ではなくなります。 (4) a. The bird will sing because the cat will swim. b. The bird will not sing because the cat will swim. c. Because the cat will swim the bird will not sing.

このデータセットは、主節の前後に副詞節を持つ肯定文で構成されています。 これらは,(同一の)肯定文か,それに対応する否定文に変換される. トレーニングセットと配布中のテストセットでは、否定語に変換しなければならない最初の副詞節を持つ文は除外されています。 その結果、このデータセットは、線形のNEG-FIRST一般化と、階層的なNEG-MAINの間で曖昧になっています。 この曖昧さは、NEG-MAINの一般化に従って、否定文に変換しなければならない先行副詞を持つ文を含むGENセットで解決されます。 Transformerを含むすべてのモデルは、配布データに対して非常に高い性能を発揮し、TESTセットでは天井に近い全文精度を達成しました。 一方、GENセットでは、Transformerを含むすべてのモデルが一様に失敗し、ネガティブマーカーの正しい配置のみを考慮した寛容な指標を用いても、ゼロに近い性能を達成しました。 GENセットでのモデル出力を詳細に検討すると、あらゆる種類のネットワークが、圧倒的に線形一般化(NEG-FIRST)と一致する予測を生成することがわかります。

2.4 反射的アナフォリック解釈

Kim and Linzen (2020)やFrank and Petty (2020)と同様に、最後の課題は、(5)のように、シーケンスを述語論理表現に意味的に解析することである。

(5) Alice sees Bob → SEE(ALICE, BOB)

名詞や動詞のように意味が文脈に依存しないエンティティの場合、このタスクでは、トークンの対応とフォームの合成を組み合わせて学習する。 Frank and Petty (2020)が指摘するように、"selfish "のような再帰的なアナフォラは、意味が文脈に依存せず、言語的に決定された先行詞に条件付けられているため、課題となる。

(6)のように前置詞句の修飾語を含む複雑な主語を持つ文では、アナフォの正しい先行詞を特定するには、潜在的な先行詞と再帰的なものとの直線的な距離ではなく、先行詞と再帰的なものとの間の階層的な関係が条件となります。

(6) The boy by the king sees himself → SEE(BOY, BOY) ∧ BY(BOY, KING)

私たちの配布データは、他動詞と自動詞の文と、その意味を表す述語論理の表現が対になっています。 このデータの入力文は、主語が複素数の場合と、反射的な目的語("h himself "や "he herself")の場合がありますが、両方の場合はありません。 そのため、学習データやテストデータでは、主語と動詞の直前の名詞句のどちらに再帰性があるのかを明確にすることはできません。 GENセットには、前置詞句を含む文の反射体と複合主語のみが含まれているため、線形一般化と階層一般化を区別するのに役立ちます。 TESTセットでは、すべてのモデルが良好な結果を示し、中央値で100%のフルシーケンス精度を達成しました。

図3に示すように、GENセットでの結果はより多様です。 主語-動詞線形:モデルが動詞の主語を線形的に最も新しい名詞と解釈する場合(学習データとの互換性なし)、 反射的線形:モデルが反射の先行詞を線形的に最も新しい名詞と解釈する場合(学習セットとの互換性あり)、 階層的:モデルが主語と先行詞の両方を文の階層構造と一致するように正しく解釈する場合(学習との互換性あり)。 TransformersとGRUモデルは、圧倒的にreflexive linearityと一致した予測を行う。 LSTMは、より多様で、不注意なLSTMは、すべてのネットワークタイプの中で最も高い階層スコアを獲得し、パフォーマンスの中央値は65.8%であった。

e4exp commented 3 years ago

3 結論

トランスフォーマーは、構文ベンチマークで大きな成功を収めている。 これは、アーキテクチャが有用な構文バイアスを持っているからなのか、それとも学習データに階層構造の手掛かりがあるからなのか。 我々の結果では、前者の証拠は見当たらず、構文解析の成功は、言語的に関連したアーキテクチャのバイアスよりも、主に膨大なトレーニングセットを活用する能力に起因することが示唆されています。 ここで研究したTransformerモデルは、すべてのタスクにおいて分布内データで最高のパフォーマンスを示しましたが、階層的な汎化よりも線形的な汎化を強く好むことから、構文に敏感な他のタスクでは有望であるにもかかわらず、構造的な汎化を必要とするタスク(Kim and Linzen, 2020)ではパフォーマンスが低いことが説明できます。 最後に、私たちが観察した線形一般化への嗜好は、Transformerの(限られた)表現力に関する以前の理論的研究と一致していることを指摘しておきます(Hahn, 2020; Merrill, 2019)。