Scarecrow: A Framework for Scrutinizing Machine Text

e4exp commented 2 years ago

https://arxiv.org/abs/2107.01294
2021

現代のニューラルテキスト生成システムは、驚くほど流暢で文法的に優れたテキストを生成することができる。初期の言語モデルでは、繰り返しや構文上のエラーに悩まされていましたが、現代のモデルが起こすエラーは、しばしば意味的、物語的、あるいは談話的な失敗です。このような複雑なエラータイプの研究を促進するために、私たちはScarecrowと呼ばれる新しい構造化されたクラウドソースのエラーアノテーションスキーマを導入しました。 Scarecrowで使用されているエラーカテゴリ（冗長性、コモンセンスエラー、支離滅裂など）は、専門家による分析と、オントロジーフリーのクラウドアノテーションのパイロットラウンドをいくつか組み合わせることで特定され、実際に機械で生成されたテキストに見られるエラー現象をカバーするスキーマとなっています。 Scarecrowを使用して、1.3kの人間と機械が生成した英語のニューステキストの段落から13kのアノテーションを収集しました。これは41k以上のスパンに相当し、各スパンにはエラーカテゴリ、重大度、自然言語による説明、先行スパン（関連する場合）がラベル付けされています。 GPT-2 Smallから最大規模のGPT-3まで、さまざまな既知のパフォーマンスレベルを持つ最先端のシステムで生成されたテキストのアノテーションを収集しました。パラメータ数、トレーニングデータ、デコーディング技術など、いくつかの要因を切り分けて詳細な分析を行った。その結果，これらの設定の間で，予想される差と驚くべき差の両方が見られました．これらの結果は、現在および将来のテキスト生成システムの評価におけるScarecrowのアノテーションの価値を示すものです。アノテーションツールキットとデータセットはこちらのhttps URLで公開しています。

https://yao-dou.github.io/scarecrow/

e4exp commented 2 years ago

1 はじめに

GPT-3は、GPT-2よりもはるかに優れたテキスト生成の基礎言語モデルであると一般に信じられています。しかし、その裏付けとなる証拠は、読解問題や物語問題などの関連するタスクを参照したものや逸話的なものがほとんどである(Brown et al., 2020)。しかし、GPT-3で生成されたテキストはどの程度優れているのでしょうか？このモデルはどのようなエラーを起こすのでしょうか？また、その誤りの分布は、これまでの言語モデルや人間が作成したテキストと比べてどうなのでしょうか？これらの疑問に答えるために、私たちはSCARECROWを開発しました。 SCARECROWは、機械で生成されたテキストのエラーに関するカテゴリー別の判断をクラウドワーカーから引き出すための方法論です。自然言語生成(NLG)の目的は、一般人が読めるような流暢な出力を生成することなので、対処すべき最も重要なエラーは、NLPの専門知識を持たない読者が認識できるものであると提案します。

我々のフレームワークでは、クラウドワーカーがモデル出力の問題点をスパンレベルでアノテーションすることができます。図1にそのようなアノテーションの一例を示します。これを可能にするために、私たちは、機械で生成されたテキストによく見られる欠点を分類しています（表1）。このエラースキーマは、専門家が認識した幅広い問題をカバーしていますが、オントロジーフリーのクラウドアノテーションのパイロットラウンドを何度か行うことで、専門家ではない読者にとって何が重要であるかに応じて磨かれています。その結果、最小限のトレーニングで日常的に使用できるフレームワークでありながら、実際に機械で生成されたテキストに見られるエラー現象をカバーしています。特定のエラータイプを使用してテキストのスパンをラベリングすることで、これまでにない詳細なレベルで現代のモデル世代の画像が作成されます。テキストを全体的に判断する方法（Celikyilmaz et al.2021）とは対照的に、この方法から得られる洞察は、問題がどこでどのように発生しているかを正確に測定するため、具体的で実用的です。我々は、SCARECROWを用いて人間と機械が生成したテキストの大規模な分析を行い、1.3kの段落に対して13kのアノテーションを収集し、エラータイプ、重大度、および説明でラベル付けされた41kのスパンを集めました。これにより、GPT-3の世代が従来のモデルと比べてどのような点で優れているのか、データやパラメータを増やしてもどのような点が改善されないのかを明らかにしました。また、他の言語モデルで生成されたテキストについても、モデルサイズ、学習データ、デコーディングストラテジーの影響を検証し、厳密なエラー分析を行っています。

我々の詳細なアノテータートレーニングシステムとタスクインターフェースを提供することで、将来の研究者が機械で生成されたテキストのエラー分析にそれらを採用し、改良することができるようにします。これにより、NLG人間評価の標準化（Howcroft et al.、2020）に貢献したいと考えています。まず、ポピュラーな言語モデルについての重要な知見を紹介し（§2）、その後、我々の設定と動機（§3）、アノテーション（§4、§5）、詳細な結果（§6、§7）について説明します。付録では、エラースキーマ(A)、クラウドソーシング(B)、アノテーターの合意とデータの質(C)、さらなる分析(D)、そして将来の方向性(E)について、より包括的に説明しています。

e4exp commented 2 years ago

2 主な結果

5つのソース（4つのモデルとグランドトゥルースの記事）から生成された英語のニューステキストのエラーの大規模なアノテーションを行いました。主な結果の要約として、図2、3、4を示します。読者への注意事項として、Grover（Zellers et al., 2019）は、GPT-2 XL（Radford et al., 2019）と同じモデルサイズとアーキテクチャですが、（ニューステキストで）インドメインでトレーニングされています。このように、我々の結果は、3つの増加するモデルサイズ（GPT-2 Small、XL、およびGPT-3（Brown et al.、2020））、1つのドメインの変更（Grover）、およびグランドトゥルーステキスト（Human）をカバーしています。また、GPT-3では、様々なデコーディング構成を検討しています（図4）。主な測定項目はスパンカバレッジで、特定のスパンタイプのアノテーションでカバーされたトークンの平均的な割合を示しています。 (図2ではスパンの種類ごとにスパンカバレッジを測定し、図3ではそれらを積み重ね、図4ではエラーにならないスパン（読者の問題）を削除してから追加しています（図3と同様ですが、個々の種類は表示していません）。

主な調査結果は以下の通りです。

1. 1. スケーリングは、Encyclopedic 、Commonsense 、Incoherent の各エラーを改善するのに有効である（Fig.2）。

これらのエラーカテゴリは、ドメイン内でのトレーニング（Grover）やモデルサイズの拡大（GPT-3）によって減少する。人間のテキストでは、これらの種類のエラーが最も少なくなっています。

2. 2. スケーリング・ベネフィットは、「Off-Prompt」、「Bad Math」、「Grammar and Usage」の各エラーでプラトーになります（図2）。

これらの3つのエラーカテゴリは、GPT-3にスケールアップしたときに、エラー削減のモデルプラトーを示しています。これらのエラータイプのうち、人間が犯すOff-Prompt（詳細：§6.1）とGrammar and Usageのエラーはまだ少ないが、Bad Mathは我々のドメインでは飽和しているように見える。

3. Self-Contradiction（自己矛盾）とRedundant（冗長）のエラーは、より複雑なスケーリング動作を示します（図2）。

これらの傾向を大まかに分類すると、中規模・大規模モデルでは増加し、人間が作成したテキストでは減少するという上昇・下降の傾向がある。さらなる分析（§6.2, §6.3）により、これらのより複雑なパターンは、他のエラータイプとの相互作用や、エラーのカウント方法の両方に影響されることが明らかになりました。

4. 人間が作成したテキストは、最も多くの読者の問題を引き起こす（図2、図3）。

ニーズ・グーグル」と「テクニカル・ジャーゴン」の2つのカテゴリは、いずれも「人間」が最も多い傾向にあり、「読者の問題」とは、必ずしもエラーではないが、テキストの完全な理解や事実確認を妨げる問題のことです（詳細：§6.4）。さらに、人間が作成したテキストには、エラーアノテーションがないわけではありません（図3）。これは、ベースラインのエラー率のコントロール（詳細：§6.6）としても、人間が書いた文章を批評するメカニズムとしても機能します。

5. デコーディングハイパーパラメータは大きな影響を与えます（図4）。

前述の結果を踏まえ、公平に比較するために、すべてのモデルのサンプリング設定を、top-p = 0.96、(softmax) temperature = 1、周波数ペナルティなし（すなわち、単語の繰り返しペナルティ；§5.2の式1で正確に定義）に固定しました。これらのデコーディング設定の効果を調べるために、GPT-3で生成されたテキストに、様々なtop-pとtemperatureの値を用いて、頻度ペナルティの有無に関わらず、アノテーションを行いました。驚いたことに、デコーディングのハイパーパラメータは、エラーレートにかなり影響を与えました（詳細：§6.5）。図4に見られるように、GPT-3の最悪のサンプリング手順（周波数ペナルティなしのargmaxサンプリング）は、GPT-2 XLよりもさらに悪い結果となりました。しかし、最良のサンプリング手順(驚くべきことに、これもargmaxサンプリングですが、周波数ペナルティがあります)では、人間がオーサリングしたテキストと同様に、明らかなSCARECROWエラーのスパンが少ないテキストが生成されました(詳細: §6.6)。これらの発見については、§6で詳しく説明します。以降のセクションでは、我々のアノテーションフレームワークの範囲と詳細、および収集したデータについて説明します。

e4exp / paper_manager_abstract