DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization

e4exp commented 3 years ago

https://arxiv.org/abs/2109.02492
2021

対話は、人間のコミュニケーションや協調に不可欠な要素です。既存の研究では、主に1対1での短い対話シナリオに焦点を当てています。しかし、現実の世界では、会議やインタビューのような複数人での対話は、数千語以上に及ぶことも少なくありません。このような長い対話を理解し処理するための対応する研究や強力なツールはまだ不足しています。そこで、本研究では、長い対話の理解と要約のための事前学習フレームワークを提示する。長い会話の性質を考慮して、我々は生成的な事前学習のために窓ベースのノイズ除去アプローチを提案する。この手法では、1つの対話に対して、テキストのウィンドウを対話にインスパイアされたノイズで破損し、残りの会話の内容に基づいてこのウィンドウを再構築するようにモデルを誘導する。さらに、より長い入力を処理するために、モデルにスパースアテンションを追加し、従来のアテンションとハイブリッドに組み合わせています。本研究では、対話の要約、抽象的な質問への回答、トピックのセグメンテーションなどのタスクをカバーする、長い対話を含む5つのデータセットを用いて広範な実験を行った。実験の結果、我々の学習済みモデルであるDialogLMは、データセットやタスクに関わらず、最先端のモデルを大幅に上回ることが分かった。

e4exp commented 3 years ago

introduction

対話は、日常生活、職場、オンラインフォーラムなどの対人関係において重要な役割を果たしており、学術界と産業界の両方から幅広く注目されています(Zhang et al. 2020b)。音声認識システムの発達やリモートワークの必要性の高まりにより、会議の議事録やインタビュー、ディベートなど、長時間の会話を記録し、書き起こすケースが増えています。このような長い会話は、情報量が多いため、ユーザーが要点を素早く理解し、関連情報を抽出することが課題となっています。このような課題に対処するために、対話の要約、対話に基づく質問応答、対話のセグメンテーションなど、多くのNLPタスクが提案されている(Feng, Feng, and Qin 2021; Feng et al. 2021; Zhong et al. 2021; Zou et al. 2021a,b; Chen et al. 2021b; Koay et al. 2021; Hsueh, Moore, and Renals 2006)。しかし、ニュースのような単調なテキストとは異なり、長い会話は対話的な構造と長い入力を持ち、現在のNLPシステムでは処理することが困難です。そのため、長い会話全体をより良く理解し、要約できるモデルを模索することが現実的に必要とされている。

最近では、事前に訓練されたニューラル言語モデルが、様々な自然言語タスクで顕著な成功を収めている（Devlin et al.2018; Liu et al.2019）。しかし、これらの汎用モデルは、普遍的な目的を持つ自由形式のテキストデータで事前に学習されています。これは強力な文脈に基づいた言語表現を得ることができるが、特定のドメインでの能力を制限することにもなる。これに触発され、会話応答生成(Zhang et al. 2020b)、会話応答ランキング(Gao et al. 2020)、マルチパーティ会話理解(Gu et al. 2021)などの異なるタスクに取り組むために、いくつかの対話関連の事前学習モデルが提案されている。しかし、これらのモデルは、短い会話（例えば、通常200語以下）に限定されており、したがって、より多くの話者や発話を伴う長い対話（通常5,000語以上）を扱うことはできない。

一方、長いシーケンスに関しては、その後の研究では、自己注意法の改善（Kitaev, Kaiser, and Levskaya 2020; Wang et al. 2020a）や、ローカル情報とグローバル情報の相互作用の促進（Beltagy, Peters, and Cohan 2020; Zaheer et al. しかし、これらのシステムは対話のために設計されていないため、対話構造に関する限られた知識を学習する。一般的に、既存のモデルはいずれも長い会話を扱う際にジレンマを抱えている。

本論文では、DIALOGLMを紹介する。これは、長い対話の理解と要約のための、事前に学習されたニューラル・エンコーダ・デコーダ・モデルである。 DIALOGLMは、sequence-to-sequenceモデルのアーキテクチャに基づいて構築されており、幅広い自然言語処理タスクに適用することができる。図1に示すように、我々は大規模な対話コーパスを用いた窓ベースのノイズ除去事前学習タスクを提案する。

(1)会話から複数の連続したターンを含むウィンドウを選択し、 (2)任意の対話関連ノイズをウィンドウに注入し、 (3)会話の残りの部分に基づいてこのウィンドウを復元するようにモデルを訓練する。

直感的には、会話者の話し方やトピックの内容は長い会話の中で分散して存在するため、事前に学習されたモデルは、ノイズのある窓を復元できるはずです。 PEGASUS (Zhang et al. 2020a) のような文レベルのマスキングと比較して、複数のターンで構成されたウィンドウには、よりまとまりのある情報的なテキストが含まれており、これは対話の形式を認識するために重要である。 BART (Lewis et al. 2020) のようなフルテキストのノイズ除去と比較して、ウィンドウベースの手法は、より少ない計算資源を必要とするだけでなく、長いシーケンスを扱う際に大きな利点があるだけでなく、ダイアログサマリーのような下流のタスクにも適している。

さらに、ダイアログの特徴に基づいてノイズウィンドウを生成するために、5種類のプレトレーニングノイズを設計する。話者マスク、ターンスプリッティング、ターンマージ、テキストインフィリング、ターンパーミュテーションです。これらの挑戦的な変換は、話者と発話の内容と順序の両方を混乱させます。したがって、ウィンドウを再構築するために、DIALOGLMは話者と発話のペアの特別なフォーマットとテキスト・スタイルを完全に理解し、完全な対話の一般的な内容を把握しなければなりません。さらに、より長いシーケンスを処理し、学習時間を短縮するために、ハイブリッドな注目法をモデルに導入しています。

ほとんどの神経層では、局所的な情報を捉えるためにスパースアテンション法(Tay et al. 2020)を利用し、その他の層では、対話の意味を完全に把握するためにグローバルな自己注意を利用しています。このハイブリッドな注目法により、DIALOGLMは8,000以上の入力単語を受け入れながら、優れたモデル性能を実現しています。実験の結果、DIALOGLMは長時間の対話理解と要約のタスクにおいて、従来のモデルを大差で上回った。具体的には、対話の要約と抽象的な質問応答において、我々のモデルは、会議や脚本の領域を含む5つのデータセットにおいて、事前に学習されたモデルBARTとLongformer(Beltagy, Peters, and Cohan 2020)を上回り、複数のデータセットで新たな最先端の結果を達成した。また、DIALOGLMは、ダイアログ・セグメンテーション・タスクにおいて、強力なベースライン・モデルよりも優れていることを示している。 DIALOGLMは、事前学習フレームワークにおける各コンポーネントの有効性を検証しました。この結果は、対話からヒントを得た各ノイズと、提案されたハイブリッドな注目法が、モデルにさらなる改善をもたらすことを示しています。

自動評価に加えて、生成タスクについては、生成されたシーケンスに対して、流暢性、情報性、元のダイアログへの忠実性の3つの次元から人間による評価を行っている。これまでの強力なモデルと比較して、DialogLMは様々な観点から大きなメリットをもたらします。

e4exp commented 3 years ago

Related Work

長いシーケンスのための事前に訓練されたニューラルモデル

長いシーケンスを処理することは、多くのNLPタスクにおいて当然のニーズです。 Transformer (Vaswani et al. 2017) のアーキテクチャでは、中核となる困難は、シーケンスの長さに対して二次関数的に成長する自己言及モジュールの計算量にあります。最近では、自己注視メカニズムを改善することで、長い配列の問題に取り組む手法が多く提案されている。具体的には、Linformer(Wang et al. 2020a)は、注目機構行列が低ランクであるという仮定の下、線形マッピングを用いて入力配列を圧縮する。ブロック/バケットベースのローカルアテンション(Kitaev, Kaiser, and Levskaya 2020; Wang et al. 2021; Roy et al. 2021)は、ランダムプロジェクションハッシュ関数またはクラスタリングアプローチを利用して、類似性の高いトークンを同じバケットに割り当てる。 Sliding window-based attention (Beltagy, Peters, and Cohan 2020; Zaheer et al. 2020; Zhang et al. 2021a) スライディングウィンドウアテンションを導入して、ローカルな情報を取り込み、グローバルな情報のためにフルアテンションの一部を保持する本論文では、最後の2つのアプローチを採用し、Sinkhorn attention (Tay et al. 2020) とグローバルアテンションをTransformer構造で混合することで、計算コストを削減する。

e4exp commented 3 years ago

方法

本節ではまず、DIALOGLMの事前学習タスクである窓ベースのノイズ除去と、5種類の対話にインスパイアされたノイズについて紹介します。次に、事前学習されたモデルの全体的なアーキテクチャについて説明する。

窓ベースのノイズ除去

長い会話には、通常、核となるテーマがあり、複数の主な話者がいる。例えば、AMIコーパス(Carletta et al. 2005)に収録されている会議は、産業界における製品設計に関するものであり、製品管理者、工業デザイナー、マーケティング専門家、ユーザーインターフェースデザイナーの間での議論を含んでいる。何千語もの長い対話は、例えば、プロダクトマネージャーは積極的に話し、ブレインストームを助けるために聴衆を元気づけるが、マーケティングの専門家は通常、統計を使って意見を述べるなど、異なる人々の話し方を描写することができる。また、会話には一貫性があり、異なる部分の内容は密接に関連しています。そのため、会話の一部の話者や一般的な内容を、残りの文脈に基づいて推測することが可能です。

これにヒントを得て、我々はDIALOGLMの新たな事前学習タスクである窓ベースのノイズ除去を提案する。形式的には、nターンからなる長い対話D = (x1, x2, - - , xn)が与えられ、各ターンxiが話者と発声のペアxi = (si , ui)を表す場合、まず、複数の連続したターンW = (xj , xj+1, - - , xj+m)を含むランダムなウィンドウを選択する。次に，その窓にいくつかの対話関連のノイズを注入して，ノイズの多い窓W0 = (x 0 j , x0 j+1, - - , x0 j+m0 ) を生成する．事前学習の段階では、すべての対話を長いシーケンスに連結し、モデルの入力として窓をノイズのあるバージョンに置き換える。目的は、条件付き分布p(xj , xj+1, - - , xj+m|X)をモデル化することによって、この選択されたウィンドウWを復元することである。図1に示すように，いくつかのターンを窓として選択し，その順序を乱し，コンテンツや話者の情報の一部をマスキングすることで，ノイズの多い窓を生成する。デコーダは、ノイズの多い窓と会話の残りの部分に基づいて、元の窓を再構築するように学習される。我々の提案する事前学習タスクに最も関連する研究は、BARTによるフルテキストのノイズ除去(Lewis et al. 2020)とPEGASUSによる文レベルのマスキング(Zhang et al. 2020a)である。しかし、5,000語以上のシーケンスでは、フルテキストノイズ除去には手の届かない計算資源が必要である。

これに対応して、我々のウィンドウベースのアプローチは、柔軟な代替案であり、モデルが回復できないことを心配することなく、より完全に変換されたノイズを追加することができる。一方で、文書とは異なり、会話の中の多くのターンは、単なる挨拶やテーマとは関係のない日常的なおしゃべりなど、情報を提供しないものです。そのため、文・ターンレベルのマスキングを行っても、モデルが対話全体の核心的な内容を理解できるとは限らないが、複数のターンが連続しているウィンドウには、意味のあるまとまった情報が含まれている可能性が高い。そのため、これまでのフレームワークと比較して、窓ベースのノイズ除去は、長い会話を処理するモデルの事前学習に適していると言えるでしょう。

対話から生まれたノイズ

次の問題は、ノイズの多いウィンドウをどのようにして生成するかということです。対話の特徴と、その特殊な話者と発話の形式をモデルに認識させるために、以下の5種類のノイズを設計します（表1参照）。

Speaker Mask

ウィンドウ内の各ターンの話者名について、その50%をランダムにサンプリングし、特別な[MASK SPEAKER]トークンに置き換える。

ターンの分割

会話の1つのターンは、複数の文で構成されることがあります。ここでは、ウィンドウ内のセンテンスの数が最も多いターンを選択し、複数のターンに分割する。最初に分割されたターンの話者は変更せず、それ以降の新たに分割されたターンの話者を[マスク・スピーカ]とする。

ターンのマージ

連続する複数のターンをランダムにサンプリングし、1つのターンにマージする。最初のターンの話者は変更せず、それ以降のターンの話者をすべて削除します。結合されるターンの数はポアソン分布(λ=3)から引き出され、少なくとも2になるように設定されます。

テキストの埋め込み

ウィンドウ内で、複数のテキストスパンをランダムにサンプリングし、各スパンを[MASK]トークンで置き換えます。テキストスパンの長さもポアソン分布(λ=3)から抽出します。長さ0のスパンは，Lewis et al.（2020）と同様に[MASK]トークンの挿入に対応する．

Turn Permutation

ウィンドウ内のすべてのターンをランダムな順序でシャッフルする。このノイズはTurn MergingとTurn Splittingの後に追加されます。これにより、話者とターンの情報がさらに混乱し、モデルが文脈を完全に理解したときにのみウィンドウを復元できるようになります。

モデルアーキテクチャ

様々なNLPタスクにおいて有望な性能と柔軟性を示しているTransformerを、バックボーンとなるニューラルアーキテクチャとして選択しました。長時間の対話処理では、BARTやUNILM（Dong et al. 2019）のようなTransformerに基づく事前学習済みのモデルには2つの限界があります。

1) 対話形式の事前学習データがなく、対話をモデル化するために設計された事前学習タスクがないこと、 2) 事前学習時に使用するテキスト長が短いこと（BARTは1024、UNILMは512）。

1つ目の課題に関しては、窓ベースのノイズ除去アプローチを用いて、モデルDIALOGLMを事前学習することで、より多くの対話関連の知識を導入しました。 2つ目の課題については、Transformerアーキテクチャのハイブリッドアテンション手法を活用します。

図2は、本モデルにおけるハイブリッドアテンション手法を示したものです。長いシーケンスを扱う場合、エンコーダの自己注目は最大の計算オーバーヘッドを占めるため、最近提案されたスパース・シンクホーン・アテンション（Tay et al.2020; Huang et al.2021）を用いて改善する。ブロックベースアテンションのようなローカルアテンション法は、入力をいくつかのブロックに分割し、自分のブロック内の単語のみにアテンションするように制限する。これは計算負荷を大幅に軽減するが、グローバルな情報を失うことになる。 Sinkhorn attentionはこれを拡張し、微分可能なソートネットワークを追加導入する。これは、元のブロックを新しい順序でソートし、各ブロックが自分自身に注意を向けるだけでなく、新しい順序で対応するブロックにも注意を向けることができるようにするものである。図2に示すように、緑のブロックは黄色のブロックに注目することができます。これは、並べ替え後の黄色のブロックが緑のブロックと同じ位置にあるためです。

Sinkhorn attentionでは、異なる層が異なる順列を学習するため、各ブロックは異なる層の複数の場所にある情報にアクセスすることができる。しかし、テキスト要約などの多くのアプリケーションでは、完全な対話セマンティクスが依然として不可欠である。そのため、我々はいくつかのエンコーダ層の自己保持を変更しない。言い換えれば、これらの層では完全な自己言及を使用しています。このハイブリッドな方法により、ローカル情報とグローバル情報の相互作用が可能になります。スパースアテンションを導入しないモデルと比較して、より長いシーケンスを入力して学習時間を短縮する前提で、同等以上の性能を得ることができます。注目すべきは、我々が提案した事前学習タスクとモデルの修正は、すべてのTransformerベースの事前学習モデルに直交しているということです。本稿では、モデルを基本バージョンのUNILMV2(Bao et al. 2020a)で初期化する。そして、UNILMV2の第4、第8、第12のエンコーダ層は、完全な自己調整で維持しています。

e4exp / paper_manager_abstract