ReFormer: The Relational Transformer for Image Captioning

https://arxiv.org/abs/2107.14178
2021

画像キャプションは、画像内のオブジェクトの関係性を表すためにシーングラフを使用することで、より優れた性能を達成できることが示されている。現在のキャプション・エンコーダは、一般的に、グラフ・コンボリューショナル・ネット（GCN）を用いて関係情報を表現し、それをオブジェクト領域の特徴と連結または畳み込みによってマージして、文のデコーディングのための最終入力を得る。しかし、既存の手法におけるGCNベースのエンコーダーは、2つの理由により、キャプション作成には効果的ではない。第一に、関係性を中心とした損失ではなく、画像キャプション化を目的（すなわち、最尤推定）とした場合、エンコーダの可能性を十分に引き出すことができない。第二に、関係性の抽出にエンコーダ自身ではなく、事前に学習したモデルを使用することは、柔軟性に欠け、モデルの説明性に貢献できない。画像キャプションの品質を向上させるために、関係性情報が埋め込まれた特徴を生成し、画像内のオブジェクト間のペア関係を明示的に表現する新しいアーキテクチャReFormer -- RElational transFORMER -- を提案する。 ReFormerは、1つの改良されたトランスフォーマー・モデルを用いて、シーン・グラフ生成の目的と画像キャプション作成の目的を統合しています。この設計により、ReFormerは、関係性の強い画像特徴を抽出するという利点を生かして、より良い画像キャプションを生成するだけでなく、一対の関係性を明示的に表現するシーン・グラフも生成することができます。一般に公開されているデータセットを用いた実験により、我々のモデルが画像キャプションとシーングラフの生成において最先端の手法を大幅に上回ることが示された

1. はじめに

画像のテキスト説明を生成する画像キャプションの研究は，エンコーダ・デコーダ・アーキテクチャの導入により，近年大きく進展している[3, 4, 16, 17, 25, 37, 41, 43]．既存のモデルは一般的に，COCO [6, 22]やFlickr [14]のような画像キャプション用に作成されたデータセットで学習・評価されており，そこには一般的なオブジェクトカテゴリしか含まれておらず，画像内のオブジェクトのペア関係は含まれていない．最近の研究では、キャプションモデルに関係性情報を持たせるために、シーングラフ生成[40, 46]を用いて、実世界の画像のグラフ表現に、オブジェクトの意味的要約とそのペア関係を与えている。例えば、図1のグラフは、人（「男」）、持ち物（「髪の毛」と「シャツ」、どちらも「男」が持っている）、活動（「男」が「ラケット」を「持っている」）など、画像中の主要なオブジェクトを符号化しています。グラフ表現は、自然言語を伴う画像関連のタスクを改善するために適用されている[34, 45]。最近の研究[38, 42, 44]では、まず、Visual Genome[19]データセットで十分に学習されたシーングラフ生成モデルを用いて、COCO画像に存在するペアワイズ関係を予測し、次に、グラフ畳み込みネット（GCN）を用いて関係情報を符号化することを提案している。そして、オブジェクト領域の特徴と関係性の表現は、連結または畳み込みによって結合され、最尤推定（MLE）を用いて文を生成するためのデコーダに入力されます。

これらの方法は、一般的に3つの主な弱点のうち少なくとも1つに悩まされます。 (i) 画像オブジェクトと関係ラベルの間にミスアラインメントがある。これは、オブジェクトを含む領域が、関係を予測するために使用された領域に対応していないためである。 (ii) GCNを使用する目的が関係情報を抽出することであることを考えると、オブジェクトの関係を考慮せずにキャプションを最適化する目的だけを使用することで、GCNのモデルのトレーニングは効果的ではない。 (iii) エンコーダ自身がオブジェクト間の関係を抽出できず、事前にトレーニングされた他のモデルに頼ることで、キャプションの説明が難しくなる。

また、最近の研究[1, 5, 9, 10, 31]では、強力なデコーダがあれば、下層のエンコーダが視覚コンテンツを真に理解しなくても、良好なメトリックスコアが得られることが指摘されている。そのため、モデルがエンコーダによって本当に重要な関係を学習しているのか、デコーダによって単に言語ルールに従っているだけなのかを判断することができなくなります。具体的には、「a man is riding a bike」という生成文に対して、モデルは本当に「riding」、「rolling」、「on」の違いを見分けることができるのか、それとも単に言語表現のルール（「rolling」や「on」よりも「riding」の方がよく使われている）に従っているだけなのか。

関係中心の目的でエンコーダを正則化することは、関係情報が埋め込まれた表現を学習するようにエンコーダを導くだけでなく、ペアワイズの関係を明示的に表現し、いくつかの関係語の生成を説明することができるため、不可欠である。

本論文では、文の記述をデコードする過程で、オブジェクトの関係を表現するシーングラフを学習するReFormerを提案する。 ReFormerは、新しいトランスフォーマー・エンコーダを介して、画像キャプション生成とシーン・グラフ生成の両方のコンポーネントを組み込んでいる。従来のTransformer [35]では、エンコーダとデコーダの両方を学習する最終目的として画像キャプションのみを使用していましたが、ReFormerでは、より良い関係表現を学習するためにエンコーダを導く目的としてシーングラフ生成を使用しています。画像キャプション作成とシーングラフ生成は2つの異なるタスクであるため、Multi-Task Learningパラダイムを直接使用することは容易ではない。そこで、リフォーマーが両タスクを段階的に学習できるようにするための逐次学習アルゴリズムを提案する。

本研究の主な貢献は3つある。

(i)キャプションを充実させる方法として、シーングラフを生成することを提案する。 (ii)補助的なシーングラフ生成タスクによって埋め込まれた関係性を用いて、キャプション用の画像特徴をよりよく学習することができる、新しい関係性トランスフォーマー(ReFormer)を設計する。

実験の結果、ReFormerは、画像キャプション生成とシーングラフ生成の両方において、最先端の手法を上回る性能を達成できることが分かりました。ソースコードの公開を予定しています。

e4exp / paper_manager_abstract

ReFormer: The Relational Transformer for Image Captioning #605

1. はじめに