e4exp / paper_manager_abstract

0 stars 0 forks source link

Who's Waldo? Linking People Across Text and Images #615

Open e4exp opened 3 years ago

e4exp commented 3 years ago

本研究では、人を中心としたビジュアルグラウンディングのためのタスクとベンチマークデータセットを発表する。 これは、キャプションに名前が書かれている人と画像に写っている人を結びつける問題である。 これは、画像とキャプションのペアで訓練された手法が、名前と外見の間の関連性を学習するのではなく、文脈上の手がかり(複数の人の間の豊かな相互作用など)に焦点を当てるようにするためである。 この課題を解決するために、Wikimedia Commonsの画像-キャプションデータから自動的に抽出した新しいデータセット「Who's Waldo」を紹介します。 我々はTransformerに基づく手法を提案し、このタスクにおいていくつかの強力なベースラインを上回る結果を得た。 我々のデータを研究コミュニティに公開し、視覚と言語の両方を考慮した文脈モデルの研究に拍車をかける。

https://whoswaldo.github.io/

e4exp commented 3 years ago

image

1. はじめに

画像に写っている人物とテキストに書かれている人物との対応関係は、単にその人物の身元や外見に関する知識だけではなく、様々な情報を含んでいます。 図1の画像とキャプションを考えてみましょう。 私たちは、このような画像とキャプションのペアを新聞などでよく目にしますが、人間は、たとえ特定の人物を知らなくても、画像に描かれた人物とキャプションに書かれた人物との間の関連性を回復する能力に長けています。 この能力には、複雑な視覚的推論能力が必要です。 図1の例では、基本的な活動(「パス」)を理解した上で、誰がボールをパスしているのか、誰にパスされているのか、画像の中で全く言及されていない人は誰なのかを判断しなければなりません。

本論文では、人を中心とした視覚と言語のグラウンディングタスクとベンチマークを紹介します。 テキスト記述と画像領域をリンクさせる一般的な問題は、視覚的グラウンディングとして知られており、画像キャプション[66, 41, 3]、視覚的質問応答[19, 20, 26]、指示フォロー[4, 43, 7]などのアプリケーションがある視覚的意味タスクの基本的な能力である。 我々のタスクとデータは、2つの軸でほとんどの既存の作品とは異なります。 まず、我々のタスクは、アイデンティティ情報を抽象化し、代わりに画像とテキストで指定された関係とプロパティに特に焦点を当てています。 また、クラウドワーカーによってアノテーションされたデータではなく、現実のデータソースから得られたキャプションを利用しています。 従来の視覚的接地は、参照している表現に基づいて対象物を特定することが中心でしたが、人の名前など人を中心としたサンプルの表現に基づいて関連性を推測すると、問題となるバイアス(性別など)が生じる可能性があります。 そこで、人の名前を隠したキャプションを使うように課題を設定しました。 これにより、画像とテキストの両方で、人物が登場するコンテキストに重点的に取り組むことができ、複雑な非対称の人間の相互作用と期待される行動を理解するモデルが必要になります。 例えば、図1の例では、プレイヤーが自分のチームの誰かにパスを出すことを期待するかもしれません。

この問題を解決するために、私たちはWho's Waldoを作成しました。 これは、約30万枚の人物画像とテキストの説明文を組み合わせたコレクションで、人名の言及とそれに対応する視覚領域との間のアラインメントが自動的に注釈されています。 Who's Waldo」は、Wikimedia Commonsで公開されている、自由にライセンスされた画像と説明文の膨大なカタログから構築されています。 このユニークなデータソースを利用して、20万人以上の人の画像とテキストの対応関係を自動的に抽出します。 また、Amazon Mechanical Turkを用いて検証した評価セットを提供し、我々のアノテーションスキームが非常に正確であることを示している。 テキストと画像の間で人々を結びつけるために、我々はTransformerベースのモデルを提案する。 このリンクを推定するために、人々の言及と人々を描いた画像領域の間の共同埋め込み空間における類似性測定を使用します。 文脈に基づいたTransformerベースの表現は、行動を示す動詞や視覚的な質を表す形容詞など、周囲の文脈的な手掛かりに推論を移行させることで、マスクされた名前を扱うのに特に適している。 その結果、本モデルは、複雑な相互作用を示す様々なシーンにおいて、異なる個人を効果的に識別し、強力なベースラインよりも大幅に改善されることが実証された。

e4exp commented 3 years ago

3. Person-centric Visual Grounding

m ≥ 1人の人物が検出された画像Iと、それに対応するn ≥ 1人の人物に言及したキャプションxs(各人物は1回以上言及されている)が与えられた場合、我々は言及された人物から視覚的検出へのマッピングを見つけたい。 すべての紹介された人が写真に写っているわけではなく、2人の紹介された人が同じ検出にマッピングされることはないので、部分的な注入性(一対一)のマッピングが得られると予想されます。 また、キャプションに記載されていない人物が写っていたり、参照された人物がマッピングされていない検出物が存在する可能性があるため、このマッピングは必ずしも射影的(only)ではないことがわかりました。 世の中には、人が写っているキャプションに名前が書かれていることがよくあります。しかし、実際の人名を用いて視覚的な根拠を推論するには、2つの課題があります。 名前の多様性がデータの疎性を大きくすることと、名前の表面的な形(すなわち、テキスト自体)が、性別などの強いバイアスを引き起こすことです。 そこで、名前をプレースホルダートークン[NAME]に置き換えることで、名前の表面的な形を抽象化しました。 これにより、モデルは人の見た目を示唆する形容詞や副詞、その人が行う行動を示す動詞など、名前のテキストコンテキストに注目するようになります。 つまり、名前をマスキングすることで、特定の人物の外見を記憶したり、特定の名前に基づいてステレオタイプな連想をしたりするのではなく、より豊かな文脈の手掛かりを学習するモデルを求めているのです。 我々のデータセットの一部として、紹介された人からそれぞれの紹介された[NAME]トークンのセットへのマッピングを提供しています。

従来、ビジュアルグラウンディングはオブジェクト(無名の人を含む)のローカライズを中心に行われてきたが、名前のある人のコンテキストにおけるビジュアルグラウンディング(これを人中心と呼ぶ)には、さらなる可能性があることがわかった。 オブジェクト中心のビジュアルグラウンディングでは、参照表現がマスクされないため、モデルは文脈からではなく、画像とオブジェクトクラスのマッチングによっても学習することができます。 さらに、我々のタスクのためのデータ(すなわち、人物のキャプション付き画像)はウェブ上で簡単に入手でき、オブジェクトデータセットよりも現実的な分布に近いものです。

評価。

入力例に対してアルゴリズムが生成したマッピングが与えられた場合、参照された人物と検出物のグランドトゥルースリンクに対する精度を計算することで評価します。 これは、何百もの箱の候補を抽出し、交差比率や、フレーズごとに1つのポイントを予測するモデルを必要とする指差しゲームのいずれかを使用して、正しいマッチを近似する先行研究とは異なります。 また、テスト画像やキャプションに写っている人物は、トレーニング中には登場しないようにしています。

e4exp commented 3 years ago

4. The Who’s Waldo Dataset

このセクションでは,Wikimedia Commonsから得られた270Kの画像とキャプションのペアを持つ新しいデータセットWho's Waldo1について説明します2。 このデータセットのサンプルとそのアノテーションを図2に示す.

データ収集。

ウィキメディア・コモンズの「People by name」カテゴリには、407K個のカテゴリがあり、それぞれがサブカテゴリの階層を持っています。 ここでは、この人々の集合をウィキメディア・アイデンティティと呼んでいます。 名前のトークン化、正規表現によるトークンのマッチング、品詞のタグ付けにより、人物中心のサブカテゴリ(「John F. Kennedy International Airport」ではなく、「Barack Obama playing basketball」や「Sally Ride on Challenger in 1983」など)をすべて特定しました。 その後、350万枚の画像をダウンロードし、重複しているものを照合し、元となったウィキメディアのIDへの参照を保持しました。 あるアイデンティティに由来する画像は、そのアイデンティティを描いている可能性が非常に高いことがわかりました。 ウィキメディア・コモンズに掲載されている多くの画像には、人間が提供した英語のキャプションが付いています。 これらのキャプションを収集し、正規表現を用いたパターン・マッチングにより、ウィキメディア特有のテキスト構造を除去する前処理を行いました。 また、「photo by [photographer name]」のようなフレーズも削除しました。 これは、キャプションの中でフォトグラファーの名前が挙げられていても、画像には写っていないことが多いからです。

画像とキャプションにおける人物の検出。

画像内の人物のバウンディングボックスを検出するために,COCO[36]でトレーニングされたMMDetection[48, 9]のCascade R-CNNとResNet-50をバックボーンに持つSwitchable Atrous Convolutionモデルを使用しました. 続いて,MMPose [69, 11]のトップダウンDarkPoseモデル(COCO [36]で学習,COCO-WholeBody [27]で微調整)を用いて,133個の全身のキーポイントを推定しました。 また,NLTK [29, 5] で事前に学習した Punkt 文のトー クナイザをすべてのキャプションに適用し,FLAIR [2] を使用して各文の名前付き実体認 識を行い,人名を識別した. 人名は,キャプションの中で複数回言及されることがあり,完全に一致しないことがあります(例えば,「William」と「Bill」,「Barack」と「Obama」など). そこで、AllenNLP[33, 22]のニューラル共参照解決モデルを用いて、複数の名前のエンティティを個々の参照された人物としてクラスタリングしました。

グランドトゥルースリンクの推定

このタスクのための監視を行うために、キャプション内の参照された人物から、画像内の人物の検出結果へのグランドトゥルースリンクを自動的に生成しました。 後述するように、Wikimedia Commonsは、多くの被参照人物の参照用の顔を提供しています。 また,画像検出のために顔画像を生成することができるので(推定されたポーズ・ランドマークから顔の位置合わせを行うことで),FaceNet埋め込み[55, 54]を用いて,参照用の顔と検出された顔の間の類似性行列を計算した. この行列の中で、最小の重みを持つ二分一マッチング[31]を見つけ、閾値(経験的に0.46に設定)を適用することで、参照された人々から検出された人々への部分的なマッピングを復元しました。 紹介された人の顔を見つけるには、次のようにします。 まず、参照された人々を、(事前の共参照解決ステップを経て)ウィキメディアのアイデンティティと関連づけます。 また、多くのウィキメディア・アイデンティティーは、ウィキメディア・コモンズにその顔が目立つような画像を持っていることがわかります。 これらを、参照された人々の参照顔として扱います。 しかし、すべての紹介された人がそのような関連性を持っているわけではないので、我々の基本的な真実のリンクは、すべてのリンクのサブセットとなります。

データセットのサイズと分割数

以上のプロセスにより、271,747個の画像-キャプションのペアが得られました。 図3は、「Who's Waldo」に含まれるアノテーションとアイデンティティの分布をまとめたものです。 これらを179Kのトレーニング、6.7Kの検証、6.7Kのテスト画像-キャプションペアに分割する。 検証用とテスト用の分割は、トレーニング用のIDが重ならないように、また、例が挑戦的で正しいアノテーションであることを確認して行います。 これを行うために、まず 16K 個の ID をランダムに選択し、これらの ID を含む例から検証用とテスト用のスーパーセットを作成します (これらの例には他の ID も含まれている可能性があります)。 次に、スーパーセットに含まれるアイデンティティを含まない残りのすべての例からトレーニングセットを作成します。 次に、スーパーセットから、ちょうど1つの人物検出と1つの参照人物を持つすべての(些細な)例を削除します。 このスーパーセットを以下のように手動で検証し、得られた例を検証用とテスト用に分割します。

AMTによるテスト画像の検証。

我々の手法は、グランドトゥルースのマッピングに近似していますが、評価用のサブセットには、正しいグランドトゥルースのリンクのみを含めたいと考えています。 そのため、Amazon Mechanical Turk (AMT)を用いて、正しくないアノテーションを持つテストセット例を削除しました。 グランドトゥルースリンク(検出された人物のID名と画像のクロップなど)が与えられた場合、次のようにイエス/ノーのAMTタスクを定義しました:「この[検出クロップ]には[ID名]が含まれていますか?

比較を容易にするために、作業者に基準画像とそのIDの追加写真へのリンクも提供しました。 各地のリンクを2人の作業員に割り当てます。 最後に、両方の作業者が「はい」と答えたすべてのペアを選択します。 400件の回答を手動で調査したところ,作業員の意見の相違やエラーを考慮して,スーパーセット例のリンクの約95.5%について,我々の自動技術が正確であったと推定した. しかし、どちらかの作業者が「いいえ」と答えた例を削除した後、残った例のリンクの98.5%以上が正確であると推定しました。 データセットと生成されたリンクの追加の視覚化については、補足資料を参照してください。

倫理的考察

人を中心としたデータセットには倫理的な課題があります。例えば、ImageNet[15]は、WordNet[12, 65]の「人」カテゴリから引き継がれた問題に基づいて精査されています。 我々のタスクとデータセットは,我々が作業中に遭遇した倫理的問題に細心の注意を払って作成された. 私たちのデータセットへのアクセスは,研究目的に限定して提供され,再配布には制限があります. また,キャプションに含まれるすべての名前をマスクしているため,名前で人を識別するような意図しないタスクにデータセットを簡単に再利用することはできません. データソースには偏りがあるため、さらなる加工や補強なしに、研究以外のシステムを開発するのに適したデータではないと考えています。 配布と使用目的の詳細は,補足的なデータシート[23]に記載されています.

image

image

e4exp commented 3 years ago

5. 方法

本節では、テキストと画像内の人物を結びつけるためのアプローチを紹介します。 ここでは、多層Transformer [60]を用いて、参照された人物とそれに対応する画像領域が非常に似ており、対応していないものは似ていないというような、画像とテキストの共同表現を学習する。 簡潔にするために、参照された人々のn個の名前を名前と呼び、検出された人々のm個の画像領域をボックスと呼ぶことにします。

5.1. モデル

我々の手法は、最近のUNITER Transformerモデル[10]に基づいています。 彼らの研究で示されているように、彼らの事前学習されたモデルは、下流の様々な視覚と言語のタスクに活用することができます。 このセクションでは、UNITERを我々のタスクのためにどのように修正し、我々のデータセットでどのように微調整するかを示します。 我々のアプローチの概要を図4に示します。 Faster R-CNN [3]の完全畳み込み型を用いて、各人物検出pの視覚的特徴を抽出します。 視覚的特徴は,その空間座標のエンコーディングと連結され,空間-視覚的特徴f(p)が得られる. 単語をWordPieces[63]にトークン化する。 本タスクでは,名前は[NAME]トークンで象徴される. 各サブワードwに対して、トークンエンベッディングと位置エンベッディングからなる特徴g(w)を抽出する。 これらの空間的・視覚的特徴とテキスト的特徴をTransformerモデルに入力する。 Transformerモデルは、自己注目層を用いて文脈表現を学習し、上位の隠れた層でより文脈に特化した表現を獲得する[18]。 ここでは,空間-視覚特徴の最終的な隠れ層をPk,テキスト特徴の最終的な隠れ層をXlとし,Pk, Xl∈R 768とする. これらの文脈に基づいた表現から、ボックス名の類似性行列Sを構築する(図4の右上)。 この行列は、i番目の名前とj番目のボックスの間のコサイン類似度Si,jを測定する。

image

ここでX〜iは、キャプションの中でi番目の参照された人物について言及しているすべての[NAME]トークンを平均化した埋め込みである。 推論の際には、各参照された人物について、その対応する検出をSの中で最も類似したボックスとして選択する。

5.2. 学習

我々のモデルを学習するために,類似性行列Sに作用する以下の損失項を提案する:

(1)画像内および画像間で定義されるボックス名マッチング損失, (2)リンクされていないボックス分類損失.

ボックス・ネーム・マッチング損失

ここでは,画像内での箱名照合損失(推定された対応関係をグランドトゥルースリンクで監視する)と,画像間での箱名照合損失(画像とキャプションのペアに対する識別目的を用いる)を定義する. あるグランドトゥルースリンク(i, j)の推定確率を,異なるボックス(p = Softmax(Si,:)j )と,対応する画像-キャプションペアの異なる名前(q = Softmax(S:,j )i)について計算します. バッチ内のすべてのグランドトゥルースリンクLについて、これらに対するクロスエントロピー損失を最小化します。

image

また,学習の際には追加の画像(グランドトゥルースのリンクがない画像)を利用したいので,ボックスと名前が1つずつの画像(同一人物である可能性が高い)についても,マッチング損失を計算します. ここでは,ボックスと名前のペアのうち,ポジティブなものとネガティブなものを抽出する. ネガティブなペアは,ボックスを別の画像(別の人物)のボックスで置き換えることによって生成されます. これらのペアに対して、二値のクロスエントロピー損失Linterを最小化します。

リンクされていないボックスの分類損失。

画像に描かれている全ての人がそのキャプションで言及されているわけではないので、Sに一定のヌルネームX〜∅を追加します。 我々は、ボックスとX〜∅の間の類似性に関する2つのクロスエントロピー分類損失を定式化する。 これらの類似性Si=∅,jをシグモイド関数で処理し、正規化された値を得る。 名前にリンクされたボックスは負のマッチとみなされます(つまり、これらはX〜φとの低い類似度をもたらすはずです)。 また、セクション4のアルゴリズムから部分的なグランドトゥルースの対応関係しか得られていないため、他の全てのボックスがポジティブマッチである(つまり、X〜∅と高い類似性をもたらすはずである)と仮定することはできない。 その代わりに、

(1)画像内の他のボックスと比較して重要でない、 (2)ぼやけている、 リンクしていないボックスを選択します。

両方とも、検出された人物の顔(全身のランドマークから計算される)を用いて測定される: 顔画像fは、Area(f) < 0.6 - Area(flargest) の場合は重要でないとみなされ、Var(∆(f)) < 50 [45] の場合はぼやけているとみなされる。 また,Var(∆(f)) < 50 [45]の場合,ぼやけているとみなされる. ここで,flargestは画像内の最大の顔,∆はラプラス演算子である.

図5は,我々のデータセットからのいくつかの画像を,リンクされていないボックスを赤で示したものである. このような正負の一致を含む画像に対して,二値のクロスエントロピー損失L∅を最小化する. この損失は、与えられたボックスがキャプションで参照されているかどうかを直接推定する手段を提供するだけでなく、重要でない顔やぼやけた顔の文脈化された表現が他のものと区別されることを暗黙のうちに促します。 これにより、参照された人物の識別精度が向上し、モデルはより関連性の高いボックスに焦点を当てることができるようになりました。

image

image