Internet-Augmented Dialogue Generation

e4exp commented 2 years ago

https://arxiv.org/abs/2107.07566
2021

地球上で継続的に更新される知識の最大の貯蔵庫は、インターネット検索によってアクセスすることができます。本研究では、この情報へのアクセスを会話エージェントに与えることを研究する。大規模な言語モデルは、その重みの中に膨大な量の知識を格納しているにもかかわらず、対話を生成する際に事実を幻視することが知られている(Shuster et al., 2021)。さらに、それらの事実はモデルの学習時点で時間的に凍結されている。これに対して、我々は、文脈に基づいてインターネット検索クエリを生成することを学習し、検索結果を条件として最終的に応答を生成するという、最新の関連情報を採用できる手法を提案する。

本研究では、新たに収集した人間と人間の会話のデータを用いて、このようなモデルを学習・評価しました。その結果、検索クエリに基づく会話中のインターネットへのアクセスは、オーグメンテーションを用いないアプローチや、FAISSに基づく検索を用いる既存のアプローチと比較して、優れた性能を発揮することがわかった（Lewis et al.、2020）。

e4exp commented 2 years ago

1 はじめに

特定の目的を持ったトピックではなく、任意のトピックに関するチャットを行うオープンドメイン対話は、大規模な言語モデルを学習することで一般的に研究されている(Adiwardana et al., 2020; Zhang et al., 2019; Roller et al., 2020)。これらのモデルは、人間と人間の会話の大規模なデータセットを用いて、エンコーダ-デコーダまたはデコーダのみの設定で学習され、学習中に得られた知識はモデルの重みに保存される。このような静的な言語モデルでは、データセットが収集された時点で得られた知識が、学習されたモデルに凍結されてしまうため、日ごと、あるいは分ごとに新しい情報が入ってくる世界のダイナミックな状態を考慮することができません。このアプローチに対する批判については、(Lazaridou et al., 2021)を参照してください。

さらに、静的言語モデルは幻覚を起こすことが知られています。つまり、事実に反するもっともらしい文を生成してしまうのです。これは、ニューラルネットワークの重みの中に知識をエンコードするためにトレーニングを採用する際の、非可逆圧縮の一形態と解釈することができます。本研究では、インターネット上の膨大な知識に動的にアクセスして応答を行うことができる生成モデルを研究しています。本研究では、エンコーダー・デコーダーアーキテクチャを用いて、対話の文脈が与えられたときに、まず検索クエリを生成するモデルを検討する。このクエリは、Fusion-in-Decoder法(Izacard and Grave, 2020)を用いてエンコードされた会話履歴の前に付加された関連知識を検索するために使用される。このエンコードされた知識を考慮して、最終的にデコーダを用いて応答が生成される。インターネットにアクセスできるということは、固定されたトレーニングセット内の事実しか知らない既存のモデルとは異なり、モデルは常に最新の状態にあるということです。私たちのモデルは、最新のスポーツのスコア、公開されたばかりの映画やテレビ番組、最新のレビューなど、インターネット上にある無数のトピックを利用できる可能性があります。このようなモデルを学習・評価するために、我々は人間と人間の会話を含む新しいクラウドソースの英語データセットを収集した。このデータセットでは、作業者の一人が「ウィザード」の役割を果たし、知識を基にした会話の中で自分の応答に情報を与えるためにインターネット検索を行う。このタスクにおいて、人間の魔法使いを置き換えるように訓練されたインターネット拡張モデルは、自動評価と人間の評価の両方で、従来の非拡張モデルよりも優れていることが示されました。インターネットオーグメンテーションの様々な設計方法を詳細に検討し、どの方法が最も優れているかを示し、どのような条件でどのように機能するかを分析しました。最終的なモデルと、収集した新しいタスクを公開し、オープンソースとして提供します1。

e4exp commented 2 years ago

3 インターネットを利用した生成

インターネットからウェブページにアクセスする2つの方法を考えます。

(i)分散型近似最近傍データベースであるFAISS(Johnson et al., 2019)に格納されているページのキャッシュセットを使用する方法と、 (ii)インターネット検索エンジンを直接使用してページを取得する方法である。

FAISSベースの手法については、我々が検討するいくつかの可能なバリエーションがあり、それらを最初に説明します。

3.1 FAISSベースの手法

我々の実験では、FAISSベースの手法は、同じコアセットアップを共有している。まず、Wenzekら（2019）2のインターネットのCommon Crawl dumpを、密なベクトルであるキーを持つFAISSデータベースに格納して利用します。検索システムは、DPR (Dense Passage Retrieval) (Karpukhin et al., 2020) Transformer-based modelを使用しています。このモデルは、バイエンコーダーフレームワークを使用して、文書と文脈のペアを一致度に基づいてランク付けするためにスコアリングしますが、ベースとなるDPRモデルはQAデータペアで事前学習されています。

ここでは、KILT Benchmark (Petroni et al., 2020)で事前学習されたDPRモデルを使用します。文書（ウェブページ）はDPRを用いて密なベクトルにエンコードされ、これらはFAISSインデックスに格納される。対話ベースの検索では、対話コンテキストもDPRによって密なベクトルにエンコードされ、FAISSの近似最近傍探索が行われ、上位N個の文書が返される。続いて、この検索メカニズムを様々な形で利用するための、最近のいくつかのニューラル手法について考察する。

RAG (Retrieval Augmented Generation)

RAG (Lewis et al., 2020)は、エンド・ツー・エンドで学習される2つのコンポーネントからなるアプローチです。

(i)ニューラルインザループの検索システム、 (ii)検索結果から最終的な応答を生成するエンコーダ・デコーダ。

DPRでは、上述のように上位N件の文書が返され、RAG-Tokenモデル（本稿ではRAGと呼ぶ）では、それぞれのトークンが文脈とともに符号化され、その集合から最も可能性の高いシーケンスが生成されます。バックプロパゲーションの学習ステップでは、DPRの文脈エンコーダーもFAISSの検索で良い結果が得られるように調整しますが、文書エンコーディングは固定します。このアプローチは、検索と生成の両方を共同で最適化し、結果を向上させることが示されています。

FiD (Fusion in Decoder)

関連しているが、おそらくより単純な方法として、FiD (Izacard and Grave, 2020)がある。この場合、事前に訓練された検索エンジン、すなわちFAISSを用いたDPRが使用され、次に、返された上位N個の文書のそれぞれがコンテキストに前置され、エンコーダによって別々にエンコードされ、最後にすべての結果が連結される。その後、デコーダがこれらの符号化を行って最終的な応答を生成するため、「融合」はすべてデコーダの段階で行われます。この比較的シンプルな手法は、場合によってはRAGよりも優れた性能を発揮することが示された。

FiD-RAG

FiDアプローチはよく機能するが、その場合、レトリーバーのエンドツーエンドのトレーニングはないので、生成のためにレトリーバーをチューニングするRAGとは対照的に、事前によくトレーニングされていることに完全に依存していることになる。 (Shuster et al., 2021)で提案されたFiD-RAGは、この2つの方法を組み合わせたものです。まずRAGの設定でレトリーバーを訓練し、次にそのレトリーバーでFiDを使用します。これにより、対話タスクにおいてRAGとFiDの両方よりも優れた結果が得られることが示された。

FAISS + 検索クエリベースの検索

このアプローチでは、コンテキストを単に密なベクトルにエンコードするのではなく、エンコーダーとデコーダーを用いて、コンテキストに応じた検索クエリを生成する。この検索クエリをDPRモデルに入力して密なベクトルを生成し、FAISSインデックスの文書と照合する。返された文書は、先ほどと同様に、最終的なレスポンス生成のエンコーダ・デコーダで使用することができます。 DPR モデルと生成モデルの融合には、既存の手法（RAG、FiD、FiD-RAG）のいずれかを使用することができます。ここでは、標準的なDPRとFiDの組み合わせを使用しました。検索クエリ自体の生成方法については、次のサブセクション（サブセクション 3.2）で詳しく説明します。

3.2 Search Engine-Augmented Generation (SEA)

先に述べたFAISSに基づくアプローチは、これまで見てきたように、QAや対話タスクのために開発された多くの既存の手法を利用することができますが、いくつかの欠点があります。第一に、リアルタイムのウェブ文書に更新するのが難しいこと、第二に、ローカルなFAISSの配備に保存可能な文書の数に限界があること、第三に、このような方法では、インターネット検索エンジンで何十年も使用されて微調整された高品質のランキングを利用できないことです。

そこで，インターネット検索エンジンを直接利用することを検討する．

方法

我々の提案する方法は、2つのコンポーネントで構成されています。

検索クエリ生成部：対話文脈を入力とし、検索クエリを生成するエンコーダ・デコーダ・トランスフォーマー。これをブラックボックス型検索エンジンのAPIに与えると、N個の文書が返される仕組みになっている。
FiD形式のエンコーダ・デコーダモデル：各文書を個別にエンコードし、それらを対話文脈のエンコードに連結し、最後に次の応答を生成する。

最初のモジュールには（文脈、検索クエリ）のペアが、2番目のモジュールには（文脈、応答）のペアが必要であるが、両方のタスクで利用可能な教師付きデータがあれば、これらのモジュールを別々に学習することができる。後述するように、本研究で収集したデータ（第4章で詳述）は、この2つの要件を満たしている。

FiDについては、2つの方法を試みる。 (i) 従来のFiD、学習した検索クエリ生成ツールから返された検索結果を用いて、FiDの学習対象となる関連文書のコンテクストを構築する。 (2)(FiD-Gold：訓練セットに対する人間が書いた検索クエリと、それに対応する検索結果があるため、これらの金の結果を使って訓練文書のコンテキストを構築することができます。

これらの検索結果は、テスト時に予測される検索クエリや検索結果とは異なるかもしれませんが、トレーニングセットのレスポンスを生成する際に使用された知識を含んでいる可能性が高いため、モデルが対応関係を学習する際に、より明確な基盤となる可能性があります。

検索エンジン

本システムでは、検索エンジンはブラックボックスとなっており、任意の方法に交換できる可能性があります。数値実験では、Bing Search APIを使用して各クエリのURLリストを生成し、これらのURLをキーにして、Common Crawlスナップショット用に作成したルックアップテーブルからページコンテンツを見つけ、そのクエリに対するページセットを生成します。これにより、FAISSベースの手法との比較がより直接的になりました。さらに、URLが英語版のWikipediaからのものであるかどうかを考慮することもできます。その場合、URLからページタイトルを抽出し、Wikipediaのダンプ内で対応するページを検索することができます。

3.3 知識応答の正則化

大規模な言語モデルに検索機能を付加した場合，重みの中に記憶されている知識をコピーすることと，検索された文書の中で提供される知識を選択することが困難であることが以前から観察されている(Shuster et al., 2021)．ここでは、このメカニズムをより細かく制御するために、一般的な正則化手法を提案する。学習の際には、元の応答生成タスクと、人間のアノテーターによって示された検索された文書から選択された知識を生成することで構成される新しいタスクとの間でマルチタスクを行う3。 2番目のタスクは、検索された文書の使用を促す正則化と見なすことができます。このタスクでモデルがうまく機能する最も簡単な方法は、そのテキストがすでに存在する文書に注目してコピーすることだからです。そして、2つのタスクの間の混合パラメータを変更することで、検索されたドキュメントからのコピーを奨励するかどうかをスムーズに制御することを意図しています。

e4exp / paper_manager_abstract