e4exp / paper_manager_abstract

0 stars 0 forks source link

A Picture is Worth a Thousand Words: A Unified System for Diverse Captions and Rich Images Generation #691

Open e4exp opened 2 years ago

e4exp commented 2 years ago

画像とテキストを創造的に生成するAIシステムは、人間の並外れた能力を模倣し、ユーザーに多様で包括的なキャプションの提案と豊かな画像の創造を提供する。 本研究では、多様なキャプションと豊かな画像の両方を生成する、このようなAI生成システムを実証します。 ユーザーが画像を想像し、それに複数のキャプションを付けると、システムはすべてのキャプションを忠実に反映したリッチな画像を描きます。 同様に、ユーザーが画像をアップロードすると、本システムはその画像に複数の多様なキャプションをつけて描きます。 この目標を達成するために、マルチモーダル統合フレームワークを提案します。 具体的には、画像とテキストの表現をTransformerネットワークで統合的にモデル化し、複数のキャプションを入力として受け付けることで、リッチな画像作成をサポートします。 また、入力されたキャプション間の関係を考慮して学習の多様性を促し、非自動回帰復号化戦略を採用することで、リアルタイムの推論を可能にしています。 これらにより、本システムは、多様なキャプションと豊かな画像生成の両方をサポートします。 本システムのコードはオンラインで公開されています。

https://github.com/researchmm/generate-it

e4exp commented 2 years ago

related issue https://github.com/e4exp/paper_manager_abstract/issues/686

e4exp commented 2 years ago

1. introduction

画像とテキストの生成モデルは,実風景の画像と自然言語の記述を相互に変換する人間の並外れた能力を模倣するものである[2, 10]. 画像からテキストへの生成と、テキストから画像への生成は、双方向のタスクである。 典型的な作品では,この2つのタスクを1対1のマッピング問題として定式化している[1, 18]. しかし,制限的な双対的仮定には2つの問題がある.

上記の問題に対処するために、我々は、豊富な画像とそれに対応する複数の多様なキャプションを整列させる、双方向の画像-テキスト生成タスクを策定する。 図1にその例を示します。 これは、画像を説明するために複数のキャプションを生成することを目的とした、多様な画像キャプションタスクからヒントを得ています[16]。 しかし、我々はさらに一歩進んで、複数のキャプションを反映した画像を生成するという双方向のタスクを定式化しました。 我々のタスクは、画像から段落への生成[8]やその逆とは異なり、我々のタスクは、まとまったキャプションではなく、複数の独立したキャプションに焦点を当てています。 我々は、統一されたフレームワークを用いて、多様なキャプションと豊かな画像の両方を生成することを提案する。

具体的には,画像とテキストの表現を統合的にモデル化するマルチモーダル・トランスフォーマーに基づいたフレームワークです. 多様なキャプションの生成を支援するために、学習において複数の入力キャプション間の関係を考慮するために、非尤度学習目的を導入します。 豊かな画像生成を支援するために、複数のキャプションからトークンのシーケンスをTransformerモデルの入力として構築する。 さらに、リアルタイムでの推論を可能にするために、非自動回帰復号化戦略を採用しています。 これは、AIシステムからの多様で刺激的な提案をサポートする自動応答ツールへの応用が可能です。

要約すると、私たちの貢献は以下の3点です。 本研究は、マルチメディア研究コミュニティにおいて、複数の多様なキャプションと豊かな画像の両方を生成するための、初めての画像とテキストの双方向フレームワークです。

image

e4exp commented 2 years ago

image

image

2 APPROACH

2.1 Pipeline

我々のモデルは、図2に示すように、主に統一されたマルチモーダルTransformerで構成されています。 Transformer [14]は、画像トークンとテキストトークンが入力として連結され、デコーダ内の自己注視層のいずれかで相互に注視することができる、デコーダのみのモデルです。 Transformerは、一連の画像とテキスト表現を入力として受け入れ、それらを文脈に応じたベクトル表現にエンコードし、画像トークンとテキストトークンを出力します。 テキストから画像への生成については、X-LXMERT[2]に従い、GANベースの画像生成器を使用して、画像トークンを実際のシーン画像に変換します。

2.2 画像とテキストの表現

画像𝑋があれば、そのキャプションセット𝑌 1:𝑁 = (𝑌 1 , ..., 𝑌 𝑁 )は多様であり、MSCOCO Captionsデータセット[11]では𝑁 = 5とする。 𝑖番目のキャプションの画像トークン、テキストトークンのグランドトゥルースシーケンスをそれぞれ𝑋 = 𝑥1:𝑀、𝑌 𝑖 = 𝑦 𝑖 1:𝐿とし、𝑀 = 8 × 8、𝐿 = 16とする。 𝑌 1:𝑁をシャッフルし、([SEP]トークンで区切って)シーケンスとして連結し、Transformerモデルの入力とする。 テキスト表現には、多くのTransformerベースのモデルに倣って、BERTで初期化された単語埋め込みを採用しています[4]。 画像を一様なグリッドレベルのパッチの列に分割します。 Visual Genomeデータセット[9]で事前に学習させたFaster R-CNN[12]オブジェクト検出器を用いて、グリッド特徴を抽出します。

元のグリッド特徴を,画像からテキストを生成するタスクの視覚的入力として用いることで,画像情報の損失を低減する. また,テキストから画像を生成する際の出力予測として,元の特徴の離散的なクラスタリング特徴を採用して,真のビジュアルトークンを構築する[2].

2.3 学習と推論戦略

画像とテキストの相互生成のための一般的な学習目的は,ソースコンテクストが与えられたときに,ターゲットとなる地の文トークンの尤度を最大化することである. 学習時には,一様な事前分布([0,1])からマスキング率をサンプリングし,予測対象となるトークンの割合をランダムにマスクする. 推論の際には,非自動回帰的なサンプリング戦略(すなわち,mask-predict-k戦略[2, 3, 5])を採用します. そのため、すべてのターゲットトークンを生成するために必要なサンプリングステップはわずか数ステップ(例えば4ステップ)であり、これによりリアルタイムでの推論が可能となる。

既存の多様な画像キャプション作成作品は、学習フレーズに𝑝(𝑌 ^{1:𝑁} |𝑋) = prod^𝑁_{𝑖=1} 𝑝( 𝑌 ^𝑖 |𝑋 )を仮定しており、キャプションセット間の関係を無視している。 そのため、生成されたキャプションは重複し、多様性に欠ける可能性がある。 代わりに、現在のキャプション𝑝(𝑌 1:𝑁 |𝑋) = prod 𝑁 𝑖=1 𝑝 (𝑌^i | 𝑌 ^{1:𝑖-1} , 𝑋 )を生成する際に、過去に生成されたキャプションを考慮することを提案する。 具体的には,学習フレーズにおいて,トークンレベルの非尤度目的[17]を用いて,新たに生成されたキャプションが履歴キャプションから多様性を持つことを奨励し,繰り返している単語には単語頻度の観点からペナルティを与えることを提案する.

3 評価

我々の手法は,人気のあるKarpathy分割[7]を用いたMSCO Captionsデータセット[11]で評価する. 人間はこのデータセットに各画像に5つのキャプションをつけているが、これは我々の動機付けには当然適している。 生成された画像の信憑性を測定するために,Fréchet Inception Distance (FID) [6]を使用する. スコアの値が小さいほど,生成された画像の分布が実際の画像の分布と一致していることを意味します. 生成されたキャプションについては,n-gram diversity (divn) [13]を用いて多様性を測定し,CIDEr-D [15]を用いて精度を測定する. 表1は、多様な画像キャプション生成のための我々の学習戦略の有効性を示している。 我々のアプローチによって生成されたキャプションセットの多様性は、Div-1とDiv-2のスコアにおいて、それぞれ16.8%と24.9%の絶対的な増加を示し、ベースラインを大幅に上回っている。 我々が生成したキャプションは、画像を様々な角度から表現しているため、CIDEr-Dスコアの点ではベースラインが生成したキャプションほど正確ではありません。 しかし、図1に示すように、我々の生成したキャプションは流暢で意味のあるものとなっています。 また、テキストから画像を生成するタスクでは、単一のキャプションからではなく、多様なキャプションから画像を生成することで、FIDスコアが51.5から42.1に向上しました(低い方が良い)。 この結果は、多様なキャプションと豊富な画像を効果的に生成できる本システムを定量的に検証するものです。