Open e4exp opened 3 years ago
ニューラル言語モデル1は、近年、自然言語データをモデル化する能力が衝撃的に高くなっています(Merity et al., 2017; Conneau and Lample, 2019; Radford et al., 2019)。 そのため、ニューラル言語モデルがどれだけうまく言語を捉えているかをテストするために、NLP研究者は、パープレキシティなどの標準的な評価指標を超えて、これらのモデルが学習している人間の言語の基礎的な属性を理解しようと努力し始めています。 この目的のために、言語モデルのプロービング(Belinkov and Glass, 2019)、すなわちモデルが言語現象をエンコードしているかどうかを判断することに焦点を当てた新進の文献が登場しています。 ほとんどの場合、これらの研究は、無数の他のプロパティ(Blevins et al., 2018; Chowdhury and Zamparelli, 2018, とりわけ)の中でも、主語と動詞の一致(Gulordava et al., 2018)やガーデンパス効果(van Schijndel and Linzen, 2018)など、文レベルの現象の分析に限られている。 この作品では、今日の言語モデルが人間の言語のどのマクロレベルの現象を反映しているかを理解しようとしています。
すなわち、我々は質問を投げかける。 神経言語モデルは、人間の言語の統計的な傾向を示すのか? 例えば、形態素の一致が捉えられているかどうかを調べるのではなく、トークンの順位と頻度の関係など、コーパス全体の傾向をモデルが学習しているかどうかを調べます。 標準的なプローブ技術と比較して、このフレームワークでは、言語現象がどのように現れるべきかを先験的に知る必要はありません。 つまり、自然言語の属性の理論的な傾向を示す法則がない場合や、我々の言語領域がそのような法則に従わないと信じる理由がある場合、経験的なデータに存在する統計的な傾向をベースラインとして使用することができます。 この特徴により,長さ分布のようにコーパスに大きく依存する分布に対するモデルの適合性を評価することができ,自然言語の特性に関する先入観がもたらすバイアスを軽減することができます2。
より具体的には,言語モデルから生成されたテキストが人間の言語と同じ経験的傾向に従うかどうかを正確に判断するための実験計画とそれに伴う仮説検証について説明します。 実験の結果、自然言語の傾向に従うかどうかは、モデルのアーキテクチャと生成戦略の両方によって大きく異なることが明らかになった。 例えば、図1では、経験的なタイプとトークンの関係に従うかどうかの度合いが異なるが、これは当惑だけではわからないことである。 今回の結果から、このフレームワークは、今日の言語モデルが人間の言語を捉える上で成功している点と失敗している点をより深く理解するための貴重なツールであることが示唆されました。
人間の言語には統計的な傾向があると考えられており,そのうちのいくつかは法律によって明示的に定量化されている(Altmann and Gerlach, 2016)。 本節では、これらの分布のうち、確立された形式を持つものと持たないものの両方をレビューし、その後の分析を行う。
Zipfの法則(1949)は、順位頻度法則として知られており、コーパス中のある単語の頻度は、その単語の頻度順位に応じて指数関数的に減衰するとしています。 k番目に頻度の高い単語wkの頻度ω(-)はパワーロー分布に従います。 ω(wk) ∝ k -s . 自然言語のテキストに当てはめると、自由パラメータsは通常1に近い値になります。 Zipfの法則は、確率的な解釈も可能です。 コーパス中のランダムな単語がk番目に多い値をとる限界確率は、次のように表すことができます。
ここで
は確率質量関数(pmf)の正規化定数です。 言語がZipfの法則に従うことは、広く研究され、検証されており、定量的言語学の正統な法則の1つと考えられています(Baroni, 2009; Li et al, 2010; Moreno-Sanchez ´ et al, 2016)。 観測された順位-頻度ペアのセットからsを推定するには、標準的な推定技術を用いることができます。 ここでは、離散的なべき乗則のMLEが閉形式解を持たないため、数値最適化を用いてsを解く最尤推定3(MLE)を使用します。
Heapsの法則(Herdan, 1960)は、タイプ-トークンの関係として知られており、文書の長さが長くなると、追加のユニークなトークンの数(すなわち、タイプの数)が減少することを述べています。 形式的には、期待されるタイプ数u(-)を、文字列yの長さl(-)の関数として、u(y)∝l(y)βの関係で表すことができます。 型は、例えば、ユニグラムやビグラムであってもよい。 上記のヒープスの法則の定式化は、明らかに確率的な解釈を欠いている。 しかし、Heapsの法則を、任意の長さの文書に対するタイプ数の期待値をモデル化するものと考えると、この関係をポアソン過程としてモデル化することができ、文書の長さに対する周辺分布はHeapsの提案したべき乗則に従うことになります。 具体的には、与えられた長さの文書の種類数を非均質ポアソン過程(NHPP; Ross, 1996)としてモデル化し、率パラメータλ(l(y))はHeapsのべき乗則関係とする。 長さtのドキュメントにk個のタイプが存在する確率は、次のようになります。
について. 式(4)と同様に,MLEを用いてパラメータα,βをフィッティングすることができる(App A参照)。
自然言語には、ドキュメントの長さやユニグラムなど、定量化可能な分布があります。 これらの分布(多くの場合、コーパスに大きく依存する)の振る舞いについて、確立された法則は存在しないかもしれませんが、コーパスに対する経験的な分布を観察することはできます。 ここではいくつかの項目について説明し、その他の項目については今後の課題とします。
前述の表記法を用いて、コーパスC内の文書の長さに関する分布のpmfを次のように推定します。
さらに、この分布の統計量、例えば標本平均を計算することができる。µˆl(C) = 1/|C|P y∈C l(y).
注目すべきは、§3.1の順位-頻度法では、単語のカテゴリー分布が特定されていないこと、つまり、単語自体を特定せずに、k番目の順位の単語の頻度を定義していることです。 ここでは、コーパスCに対するユニグラム分布を次のように定義します。
文字列に含まれる単語のうち、一定の割合で、記号(数字や句読点)やストップワード(「that」や「so」など、主に構文上の役割を果たす一般的な単語)が含まれています。 この割合を(連続)確率変数Sとしてモデル化し、その確率密度関数(pdf)を次のように推定することができます。
シンボルのpdfも同様に定義されます。 長さの分布と同様に、これらの分布の平均値 µˆstop, µˆsymを計算することができます。
我々は,言語モデルがどれだけ自然言語を学習しているかを定量化するための別のアプローチを提案している. この質問に答えるために,我々は言語モデルから生成されたテキストが,言語モデルが学習された人間が生成したテキストに存在する統計的傾向を示しているかどうかを分析する. 言語モデルが自然言語の特定の統計的傾向に適合しているかどうかを評価するためのフレームワークを、有意差検定と組み合わせて提供する。 その結果、ニューラル言語モデルは、検討した統計的傾向のサブセットのみを学習しているように見えるが、理論的な法則よりも経験的な傾向に近いものであることがわかった(存在する場合)。 さらに、異なる分布への適合性は、モデルのアーキテクチャと生成戦略の両方に依存する。 具体的な例としては、核サンプリング方式で生成されたテキストは、標準的な祖先サンプリングで生成されたテキストよりも、自然言語のタイプとトークンの関係をより忠実に反映しており、LSTMからのテキストは、長さ、ストップワード、記号に関する自然言語の分布を驚くほどよく反映しています。