Multimodal Conditionality for Natural Language Generation

e4exp commented 3 years ago

https://arxiv.org/abs/2109.01229
2021

前もって学習された大規模な言語モデルは、言語理解タスクにおいて最先端の性能を示してきた。最近では、マルチモダリティの学習にも応用され、視覚と言語を組み合わせた表現の改善につながっています。しかし、言語モデルを条件付きの自然言語生成（NLG）に適応させることは、単一のモダリティ、特にテキストに限定されています。我々はMAnTiS（Multimodal Adaptation for Text Synthesis）を提案する。これは、変換器ベースのNLGモデルにおけるマルチモーダルな条件付けのための一般的なアプローチである。この手法では、各モダリティからの入力をモダリティ固有のエンコーダに通し、テキストのトークン空間に投影し、最終的に結合して条件付きプレフィックスを形成する。事前に学習させた言語モデルとエンコーダーを、条件付プレフィックスを用いて微調整し、生成します。 MAnTiSを商品説明文の生成に適用し、商品画像とタイトルの両方にネットワークを適用して説明文を生成します。 MAnTiSは、標準的なNLGスコアリングメトリクスにおいて、強力なベースラインアプローチよりも優れていることを実証しました。さらに、MAnTiSは与えられたマルチモーダルな入力と一致する人間品質の説明文を生成できることを定性的な評価で示しています。

e4exp commented 3 years ago

1. はじめに

自然言語処理（NLP）における転移学習技術の使用は、広範囲のNLPタスクにおいて、これまでの最先端の手法を大幅に改善する（Dai & Le, 2015; Devlin et al., 2018; Howard & Ruder, 2018; Radford et al., 2019; Brown et al., 2020）。この設定では、変換ベースの言語モデルが大規模なラベルなしコープラで事前学習され、その後、タスク関連のヘッドとともに教師付きデータで微調整されます（Devlin et al. このようなアプローチは、自然言語理解（NLU）タスクでは顕著ですが、テキスト生成ではまだあまり検討されていません。転移学習法は最近、複数のモダリティの共同学習に適用されており、画像とテキストベースの入力が共に事前学習されている（Lu et al., 2019; Li et al., 2020; Su et al., 2019b; Chen et al.

これらのアプローチでは、タスク固有のトレーニングではなく、事前トレーニング中に視覚データとテキストデータの結合表現を学習することで、より優れた意味的表現が得られます。最先端の性能とわかりやすいダウンストリーム・トレーニングにより、視覚的質問応答、視覚的関連性、キャプションベースの画像検索などのマルチモーダル・タスクのデフォルト手法として急速に普及している。このアプローチの自然な拡張は、事前に学習した言語モデルを、マルチモーダルな条件付き自然言語生成（NLG）に適応させることである。これは、エンコーダとデコーダのフレームワークで実現できる。エンコーダは条件を埋め込むことを学習し、事前学習したデコーダはこのエンコーディングに基づいて生成を修正する。

以前の研究では、生成が純粋にテキスト情報に依存するタスクでは、これがうまく機能することが示唆されている（Golovanovら、2019年、Zhangら、2019年、Songら、2019年）。最近の研究では、画像やクラス情報Zieglerら(2019)のような他のモダリティを使用して、事前に訓練されたモデルの生成を導いた。しかし、その作業は単一のモダリティのみを考慮しており、生成能力に悪影響を及ぼす可能性のある新しいパラメータを事前学習済みモデル内に導入する必要があった。

本研究では、変換器ベースの言語モデルをマルチモーダルな条件付きNLGモデルに適応させるための一般的なアプローチであるMAnTiSを提案します。 MAnTiSでは、各モーダルタイプを特定のエンコーダーを用いてエンコードし、各モーダルタイプを区切るセパレータートークンを結合して条件付きプレフィックスを形成します。デコーダは、微調整の際にプレフィックスを履歴として使用し、連続的に出力を予測する。このプレフィックスはデコーダに依存しないため、どのようなモダリティに対しても条件付けして生成することができる。我々は、自己教師付きユニモーダル変換モデルが、分類タスクのための教師付き学習を通じて異なるモダリティ間のコンテキストを学習することができることを示したKielaら（2019）からインスピレーションを得た。このアプローチの有効性をファッションキャプションデータセット(Yang et al., 2020)で実証し、商品名と画像が与えられると、モデルはeコマースに関連する説明文を生成する。事前に学習した言語モデルに条件ベクトルを注入することに依存する競合アプローチと世代を比較しました。その結果、MAnTiSは他のモデルよりも優れていることがわかりました。定量的、定性的な実験を行い、複雑なモデルスティッチングを必要としないこのアプローチの有効性を示しています。 MAnTiSを任意のモダリティタイプに拡張することは、変換器ベースの事前学習モデルであれば簡単に実装できます。このようにして、将来のNLGにおける伝達学習のための強力なベースラインアプローチを提供する。

e4exp commented 3 years ago

3. 方法

一連のトークン・ベクトルx = (x1, ... , xn)が与えられたとき，言語モデルは確率p(x)を学習する。

ここでは，学習済みの言語モデルを，条件付き確率分布p(x|y)を学習するマルチモーダル条件付きモデルに変換します。ここで，y = (y1, ... , yn)は任意のモーダルなトークンで構成されます。

目的は、x, yのペアの教師付きデータセットが与えられたときに、p(x|y)を学習することである。これを達成するために、我々はエンコーダ-デコーダアーキテクチャを用いて問題を解決します。モダリティに特化したエンコーダーを用いて条件付きのモダリティをエンコードし、言語モデルのテキストトークン空間に投影します。異なるモダリティタイプの間にセパレータートークンを追加し、モデルがそれらを区別できるようにします。これらの条件付きトークンyを、生成xを導く入力に前置します。本アプローチの全体的なアーキテクチャを図1に示します。以下の章では、符号化戦略、入力構成の詳細、および微調整の手順について説明する。

3.1. エンコーダーマッピング

符号化段階では、画像とテキストの両方のモダリティを使用して生成の条件とします。画像をエンコードするために、事前学習したResNet-152モデルの最後の完全連結層の埋め込み形式を抽出する(He et al., 2016)。これは、次元NがResNetモデルに依存する画像ごとの1つの密なトークンとみなすことができます。入力画像の変換は、事前学習時と同じ設定を使用し、リサイズ、センタークロッピング、正規化を行います。次に，学習可能な重み行列W∈RN×Dを持つ線形層を介して，トークンを言語モデルの埋め込み空間Dに投影します。デコーダの言語モデルの埋め込み関数は、テキストをエンコードします。言語モデルには、変換器ベースの事前学習モデルGPT-2（Radford et al.2019）を使用しています。このモデルは、自己注意モジュールが前のトークンにのみ参加できる自動回帰モデルで、テキストのトークン化にはByte Pair Encoding（BPE）を使用しています。このアプローチは、エンコーディングをテキスト空間にマッピングするため、あらゆるモダリティに向けて容易に拡張することができます。エンコーダーとデコーダーは、教師付き学習の際にエンド・ツー・エンドで共同で微調整される。エンコーダ、特に画像エンコーダを微調整することで、画像トークンのマッピングの効果的な学習に貢献します。

3.2.マルチモーダルな微調整

GPT-2言語モデルでは、入力はトークンと位置のエンベッディングの和で構成され、位置のエンベッディングはゼロインデックスになっています。各条件付きのモダリティに対しては、位置エンコーディングもゼロから始めます。各モダリティ・トークンの間には、位置が1＋前のトークンの位置であるセパレータ・トークン[SEP]を追加します。最初の条件付きトークンの前にはbeginning of sentence [BOS]トークンが付けられ、世代の最後にはend of sentence [EOS]トークンが付けられます。微調整の際には、言語モデル頭部の次の予測語とグランドトゥルース語の間に、GPT-2と同じ損失関数（クロスエントロピー）を用いてモデルを学習します。画像のトークンは正確な語彙を持たないため、損失は計算されません。

3.3. モダリティ・ドロップアウト

このように微調整することで、事前に学習した言語モデルに、画像とテキストの間のクロスモダリティの相関関係を学習させます。当然のことながら、テキストのトークンが他のモダリティのトークンよりも生成に影響を与える可能性があります。我々のアプローチでは、デコーダの言語モデルと画像埋め込みモデルを事前に学習させる一方で、画像マッピング層をランダムに初期化して学習させます。 Neverovaら（2015）は、学習中に異なるモダリティチャンネルをランダムにドロップすることで、クロスモダリティ表現を学習し、誤ったコアドプションを減らすことができると主張し、ModDropを提案した。画像表現はテキストのみのモデルに融合させる必要があるため、学習中に調整した確率pでテキストの条件パスをランダムに脱落させた。これにより、画像の条件付けが改善され、全体的なパフォーマンスが向上するのではないかと推測しています。これは、変換デコーダ層内の標準的なドロップアウトに加えて行われました。

e4exp commented 3 years ago

4. 実験設定

このセクションでは，学習と評価に使用したデータセット，メトリクス，およびベースラインに関する詳細な情報を記載する．

4.1. データセット

我々は、ファッションキャプションデータセットFACAD（Yang et al. このデータセットは、ファッション記事とその名前、異なる視点からの画像、電子商取引に関連する説明文、色、その他のメタデータで構成されている。本研究では、商品のタイトルと様々な画像を与えて、商品説明を生成したい。データセットの一例を表1に示す。合計55,959件の説明文がある。説明文、名前、画像が空のエントリや、重複する説明文を削除して、45,748件にした。このうち、40,748件をトレーニングに、2,500件を検証に、残りの2,500件をテストに使用した。 Yangら（2020）は，このデータセットを，生成されるキャプションが1枚の画像にのみ依存する画像キャプション問題に用いた．我々はこのデータセットを、各モダリティの複数のインスタンスが入力として提供される可能性のある、マルチモーダル条件付きNLGに使用した。しかし、1つの記述に複数の画像を使用すると、学習サンプルの総数が大幅に減少します。

4.2. 評価指標

定性的な評価を行うために、BLEU4 (Papineni et al., 2002), CIDEr (Vedantam et al., 2015), METEOR (Denkowski & Lavie, 2014), ROUGE-L (Lin, 2004) のスコアを含む、最も一般的に使用されているNLG指標でのモデル性能を報告する。

4.3. 学習内容

GPT-2は、800万の非WikipediaウェブページのテキストからなるWebTextデータセット（約40GB）で学習された大規模な変換器ベースのモデルです（Radford et al.2019）。コヒーレントなテキスト生成で優れた性能を示しているため、ベースとなる無条件事前学習済み言語モデルとして使用しています。特に、我々はGPT-2媒体を使用しています。 GPT-2媒体は、1024の埋め込みサイズを持ち、1層あたり16ヘッドの24層で構成され、合計345Mのパラメータを含んでいます。 GPT-2はHuggingFaceのリポジトリから公開されています。同じ語彙に3つのトークンを追加して使用しています。BOS、SEP、PAD（パディング・トークン）の3つのトークンを追加して使用しています。画像の符号化には、PyTorchのtorchvisionパッケージで公開されているImageNetデータセット(Deng et al., 2009)で学習したResNet-152を使用しています(Paszke et al., 2019)。さらに、各モデルの学習率を1e-5から5e-5の間でチューニングしました。テキストモダリティのドロップアウトを0.3から0.7の間で調整し、他のすべてのドロップアウト値を0.1に設定した。学習はAdamWオプティマイザとウォームアップ付きの線形スケジューラを用いて行いました。

4.4. ベースラインの手法

MAnTiSを、言語モデルの条件付けのための現在の最先端のアプローチと比較しました。比較する際には、著者が公開している最新のコードを使用しました。 CONTEXT-ATTN：コンテキストアテンションは、GPT-2のすべてのプリトレーニングされたデコーダ層の上に、ランダムに初期化されたエンコーダ-デコーダ層を追加する(Ziegler et al., 2019)。マルチモーダルな条件付けトークンをエンコーダトークンとして使用する。PSEUDO-SELF（シュードセルフ）。疑似自己注意は、GPT-2のすべての自己注意層に追加のマルチモーダル条件付けトークンを前置する(Ziegler et al., 2019)。これにより、ユニモーダルコンディショニングで最高のパフォーマンスを達成し、最強のベースラインを形成した。

e4exp / paper_manager_abstract