e4exp / paper_manager_abstract

0 stars 0 forks source link

Emergence of Separable Manifolds in Deep Language Representations #589

Open e4exp opened 3 years ago

e4exp commented 3 years ago

深層ニューラルネットワーク(DNN)は、さまざまな認知モダリティの知覚課題を解決することで、経験的に大きな成功を収めている。 DNNは生物学的な脳に大まかにインスパイアされているにすぎないが、最近の研究では、タスクに最適化されたDNNから抽出された表現と脳内の神経集団との間にかなりの類似性があることが報告されている。 DNNは、複雑な認知機能の根底にある計算原理を推論するためのモデルクラスとして注目されているが、一方で、もともと神経集団の情報を探るために開発された手法を適用するための自然なテストベッドとしても登場しているのである。 本研究では、特徴表現の幾何学性とクラスの線形分離可能性を結びつける計算論的神経科学の最新技術である平均場理論的多様体解析を用いて、大規模な文脈埋め込みモデルの言語表現を解析する。 本研究では、様々なモデルファミリー(BERT、RoBERTa、GPTなど)の表現を調査し、特に曖昧なデータ(複数の品詞タグを持つ単語や多くの単語を含む品詞クラスなど)において、層の深さを超えた言語多様体(例えば、品詞タグの多様体)が出現する証拠を発見しました。 さらに、これらの多様体における線形分離可能性の出現は、多様体の半径、次元、および多様体間の相関の削減によってもたらされることがわかった。

e4exp commented 3 years ago

1. はじめにと関連研究

最近の多くの研究では、タスクに最適化されたディープニューラルネットワーク(DNN)から抽出された表現と、感覚系における脳内の神経集団との間に顕著な類似性が示されている(Yamins et al.2014; Khaligh-Razavi & Kriegeskorte, 2014)。 計算神経科学のコミュニティでは、複雑な認知機能の根底にある神経相関を研究するためのフレームワークとして、DNNを活用することにますます依存しています(Cichy & Kaiser, 2019; Kriegeskorte, 2015)。 神経ユニットの集団が、認知タスクを実行するために、多層的な処理段階にわたって表現をどのように変換するか」という問題に取り組むことは、神経科学と深層学習の両方において重要な課題です。 その結果、神経表現と計算への洞察を提供する技術を開発することは、両分野における活発な研究領域となっている(Barrett et al.2019)。 DNNや脳において情報がどのようにエンコードされるかを特徴づける先行研究の多くは、データの基礎となる幾何学的構造に焦点を当てている。 神経科学では、表現類似性分析(Kriegeskorte & Kievit, 2013)が、神経データとディープネットワーク表現の幾何学的構造における刺激の類似性を捉えている。 また、測地線(Hénaff & Simoncelli, 2015)、曲率(Hénaff et al., 2019; Fawzi et al., 2018)、固有次元(Ansuini et al., 2019)、正準相関分析(Raghu et al., 2017)などの他の幾何学的尺度を用いて、DNNにおける神経集団や学習した表現の複雑さを実証的に研究しています。 自然言語処理(NLP)では、ELMo(Peters et al., 2018)やBERT(Devlin et al., 2018)などの文脈に基づいた単語表現の最近の進歩により、多くのタスクで経験的に大きな改善が見られます。 これらの進歩と並行して、これらの文脈表現によって言語のどのような側面が捉えられているかを探求する、BERTologyと色づけされた新興の研究ラインがあります(Zhang & Bowman, 2018; Blevins et al., 2018; Tenney et al., 2019a)。 分析のための人気のあるアプローチの1つは、幾何学のレンズを通してでもある。 Hewitt & Manning (2019) は、BERTからの埋め込みにおけるパースツリーの幾何学的表現の証拠を報告し、Coenenら (2019) は、UMAPなどの視覚化技術を介した単語感覚の幾何学的表現を研究している。 これらの表現を分析するためのもう1つの一般的なアプローチは、教師付きプローブ、すなわち、特定の言語的特性(例えば、品詞タグ、構文頭)を予測するために固定された表現の上で訓練された分類器を介して行われる(Liu et al.2019a; Tenney et al.2019b)。 教師付きプローブは概念的にシンプルであり、これらのモデルによってエンコードされる言語的知識の種類についての理解を大きく広げてきた。 しかし、それらは学習された表現空間の基礎となる本質的な幾何学を捉えることができず、プロービングタスクに関する高い精度が、関連する言語構造がエンコードされていることを必ずしも意味することは明らかではない。 本論文では、レプリカ理論に基づく最近の多様体分析手法(Chung et al.2018)を適用し、物体多様体の幾何学的形状を、単位あたりの物体カテゴリについて保存されている情報量の指標として線形分類器の粉砕能力に結びつける。 この方法は、視覚CNN(Cohen et al., 2019)、視覚神経科学(Chung et al., 2020)、深層音声認識モデル(Stephenson et al., 2019)などの感覚領域で使用されており、オブジェクト多様体が層を超えてどのように「解きほぐされるか」を特徴づけています。 ここでは、この多様体分析を深層言語表現、特にTransformerベースのモデル(Vaswaniら、2017)の研究に初めて適用し、NLPシステムもタスクに関連する言語的な「オブジェクト」を「アンタングル」することを示します。 いくつかの重要な発見を紹介します。

  1. 単語や言語カテゴリーの多様性は、Transformerアーキテクチャの深層部において、視覚や音声の深層ネットワークと同様に、タスクに依存した予測領域(特徴ベクトルはマスクされたトークンに対して定義される)で出現する。
  2. 2.単語の文脈化領域(マスクされていないトークンで定義される)では、単語のマニフォールドは、マニフォールド容量が強く減少し、階層間の分離が困難になる。言語マニフォールドは下層の単語マニフォールドの影響を受けるが、文脈化によって打ち消され、単語マニフォールドと比較してより効果的な分離を持つ言語マニフォールドが得られる。
    1. 品詞(POS)多様体の出現は、基礎となる単語がBERTの複数のPOSタグで曖昧な場合に最も強く観察される。POS 多様体はさらに、各 POS クラスの単語数に応じて、単語のような形状と分離可能な文脈の形状の間を補うようです。

さらに、広く利用されているNLPモデルにおいて、単語表現の多様体を用いた言語的アンタンジュリングの一般性を示します。 また、学習ダイナミクスの微調整の幾何学性は、学習と一致するタスクと一致しないタスクを用いて、タスク間の類似性を測定することができることを示しています。 これらの結果は、自然言語処理のための深層ニューラルネットワークにおいて、単語、品詞、名前付き実体などの言語表現の多様性が出現することを示す幾何学的な証拠となる。