MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding

e4exp commented 3 years ago

https://arxiv.org/abs/2104.12763
2021

マルチモーダル推論システムでは、事前に学習したオブジェクト検出器を用いて、画像から関心領域を抽出します。しかし、この重要なモジュールは、一般的にブラックボックスとして使用されており、下流のタスクとは無関係に、オブジェクトと属性の固定された語彙で訓練されています。そのため、このようなシステムでは、自由形式のテキストで表現される視覚的な概念のロングテールを捉えることは困難である。本論文では、キャプションや質問のような生のテキストクエリを条件として、画像内のオブジェクトを検出するエンドツーエンドの変調検出器MDETRを提案する。 MDETRでは、モデルの初期段階で2つのモダリティを融合させることで、テキストと画像を共同で推論する変換器ベースのアーキテクチャを採用しています。既存のマルチモーダルデータから抽出した130万件のテキストと画像のペアを用いてネットワークを事前に学習し、テキスト中のフレーズと画像中のオブジェクトを明確に関連付けます。その後、フレーズのグラウンディング、参照表現の理解、セグメンテーションなど、いくつかの下流タスクで微調整を行い、一般的なベンチマークで最先端の結果を得ることができました。また、数ショットの設定で微調整を行った場合、与えられたラベルセットのオブジェクト検出器としての本モデルの有用性を調査した。我々の事前学習アプローチは、ラベル付けされたインスタンスが非常に少ないオブジェクトカテゴリのロングテールを処理する方法を提供することを示している。我々のアプローチは、視覚的な質問に答えるために容易に拡張することができ、GQAおよびCLEVRにおいて競争力のある性能を達成した。コードとモデルはこちらのhttps URLから入手可能です。

https://github.com/ashkamath/mdetr

e4exp commented 3 years ago

はじめに

物体検出は，最先端のマルチモーダル理解システム [6, 28] にとって不可欠な要素であり，通常は，画像内の概念の固定語彙を検出するブラックボックスとして使用されます．この検出システムを使う一般的なアプローチは，下流のマルチモーダル理解タスクを考慮しておらず，しばしば性能のボトルネックとなっている[73]．さらに，このシステムは通常，凍結されているため，モデルの知覚能力をさらに向上させることができないだけでなく，検出されたオブジェクトにのみアクセスでき，画像全体にはアクセスできないという制限があります．このような「パイプライン化」されたアプローチでは、他のモダリティとの共同トレーニングが制限されてしまいます。視覚言語の設定では、結果として得られるシステムの語彙を検出器のカテゴリと属性に制限することを意味します。その結果、このようなシステムは、自由形式のテキストで表現される概念の新しい組み合わせを認識することができません。最近の研究[67, 45, 13]では、テキストを条件とした物体検出の問題が検討されています。これらの手法は，この目標を達成するために，主流の1段および2段の検出アーキテクチャを拡張している．しかし、我々の知る限り、このような検出器が、VQAのような検出されたオブジェクトに対する推論を必要とするダウンストリーム・タスクのパフォーマンスを向上させることは実証されていません。これは、これらの検出器がエンド・ツー・エンドで微分可能ではないため、下流のタスクとの相乗効果で学習することができないためであると考えている。

我々の手法であるMDETRは、最近のDETR[2]検出フレームワークをベースにしたエンド・ツー・エンドの変調検出器であり、自然言語理解と併せて物体検出を行うことで、真にエンド・ツー・エンドのマルチモーダル推論を可能にします。 MDETRは、画像内の概念を監視する手段として、テキストと整列したボックスにのみ依存しています。そのため、現在の検出手法とは異なり、MDETRは自由形式のテキストからニュアンスのあるコンセプトを検出し、見たことのないカテゴリーと属性の組み合わせを一般化します。図1では、そのような組み合わせや変調された検出を紹介しています。予測はテキストに基づいて行われますが、これは視覚的推論の重要な要件です[66]。 200,000枚の画像とボックスアノテーション付きのアラインメントされたテキストからなるデータセットを用いて事前学習を行ったところ、Flickr30kデータセットでのフレーズグラウンディング、RefCOCO/+/gデータセットでの参照表現理解、PhraseCutでの参照表現セグメンテーションにおいて、報告されている中で最高の結果を得ることができ、また、GQAおよびCLEVRベンチマークでの視覚的質問応答においても競争力のある性能を得ることができました。

我々の貢献は以下の通りである。

DETR検出器から派生したエンド・ツー・エンドのテキスト変調検出システムを紹介します。
本研究では、DETR検出器から派生したエンドツーエンドのテキスト変調検出システムを導入し、フレーズグラウンディングや参照表現理解などのタスクにシームレスに適用できることを実証しました。
例えば、視覚的質問応答、参照表現のセグメンテーション、数ショットのロングテール物体の検出などで、競争力のある性能を得ることができた。

e4exp commented 3 years ago

スクリーンショット 2021-04-27 23 15 29

e4exp commented 3 years ago

結論

完全に微分可能な変調された検出器であるMDETRを発表した。 MDETRは、様々なデータセットを用いたマルチモーダル理解タスクにおいて高い性能を発揮し、数ショット検出や視覚的質問応答など、他のダウンストリームアプリケーションにおいてもその可能性を示した。この研究が、ブラックボックス的な物体検出器に頼らず、完全に統合されたマルチモーダル・アーキテクチャを開発するための新たな機会を開くことを期待しています。

e4exp / paper_manager_abstract

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding #427