Open e4exp opened 3 years ago
人々は、ソーシャル・メディアに写真を投稿して、人との関わりを持ち、つながりを求めます。 かわいい犬の写真は、他の愛犬家たちの共感を得て、「いいね!」や「お気に入り」ボタン、あるいは「なんて愛らしい犬なんだ」「青い目を見て!」などのコメントといった反応を引き起こすことがあります。 ソーシャルメディアに投稿された写真とのインタラクション(ビジュアル・エンゲージメントと呼ぶ)は、豊富な意味的記述("dog"、"blue eyes")を含んでおり、粗視化および細視化されたクラスラベル[11, 80, 95]、キーワード/ハッシュタグ[55]、バウンディングボックス[51, 23]、画像キャプション[8]など、標準的なコンピュータビジョンタスクにおける人間のアノテーションよりも、はるかに低コストで取得することができます。 さらに重要なのは、コメント、返信、「いいね!」、シェアなどのビジュアル・エンゲージメントが、画像の内容を超えた感情的・文化的なコンテキストを提供することです。 例えば、図1の画像は、標準的なキャプションタスクでは、"a dog sits next to a stuffed animal"(犬がぬいぐるみの隣に座っている)と説明できます。 この投稿を見たソーシャルメディアの視聴者は,犬のかわいらしさに反応したり,破れたぬいぐるみに気まぐれな反応でコメントしたり,会話を始めたりするかもしれない. 結果として得られるテキスト記述は,標準的な画像キャプションタスクの缶に書いてある通りのアプローチとは異なり,意見,感情,推測などのプライベートな状態 [65, 82] を表現する. 我々は、ビジュアルエンゲージメントが表現学習の監視信号としても機能し、感情認識や政治的偏見の分類など、主観的な下流のコンピュータビジョンタスクにうまく移行できることを主張する。
本研究では、意味的・文脈的に豊かなVisE(Visual Engagement Signal)から画像表現を学習することを提案する。 このような学習された表現は、画像コンテンツを人間の反応にマッピングする副産物として、画像によって表現されたプライベートな状態を推論することができるという仮説を立てています。 これは有益なことであり、一般的に画像から客観的に提示される事実情報(例えば、「これは犬です」対「なんてかわいい犬なんだ!」)に焦点を当てている現在のコンピュータビジョン研究に、素晴らしい付加価値を提供することができるでしょう。 オープンワールドのビジュアルエンゲージメントには、主観的な情報が多く含まれていますが、本質的にはノイズが多いものです。 このような信号を表現学習に適切に活用する方法は、挑戦的で未解決の問題です。 代理タスクからの特徴学習に関する最近の研究[19, 3, 84]にヒントを得て,本研究では,視覚的エンゲージメントの種類ごとにクラスタリングを行い,トレーニング画像に関連するすべての回答のクラスタ割り当て指標を得る. これらのクラスタ割り当ては,監督者の手掛かりとして使用される. 次に、表現学習のためのマルチタスク方式で、画像をクラスタ割り当てにマッピングするためのネットワークを最初から学習する。 ここで、各タスクは、そのタイプの反応に対するクラスタインデックスを予測することである。 本論文では、2つの形式の人間の反応を考えます。 (1)コメントと (2)リアクションです。
前者では、テキストモデルによって符号化された表現を用いてクラスタリングを行う。 既存のマルチモーダル手法では,言語モジュールと視覚モジュールの両方に何億ものパラメータを用いて事前学習を行うが,本稿では,コメントを埋め込むために,計算効率の良い市販のエンコーダを用いる. さらに,エンゲージメント信号から学習した表現を,下流のタスクで評価します.
本研究では、ソーシャル・メディア・エンゲージメントが、主観的なダウンストリーム・タスクに役立つ画像表現を学習するための監督機能を提供できることを実証することを主な目的としています。 この目的のために、我々は2億5000万件の一般公開されたソーシャルメディアの投稿で事前に学習されたVisEを調査した。 広範な実験を通して、プライベートな状態の検出に関連する3つのタスクにおいて、学習されたVisEモデルは、ImageNetで教師されたモデルを場合によってはかなりのマージンで上回ることができることを示しています。 これらの結果は、VisEが現在の表現学習のパラダイムを広げ、機械と人間の知能のギャップを縮めることを強調している。
我々は、表現学習のための監督信号としてのソーシャルメディアのビジュアルエンゲージメントを探求した。 VisEは、ソーシャルメディアの投稿に対する人間の反応(リアクションやコメントなど)から得られる疑似ラベルを使用する、合理化された事前学習方法です。 実験と分析により、視覚的関与のシグナルは、従来の視覚認識を超えた様々な下流のタスクにうまく移行することが示された。 VisEは、これらのデータセットにおいて、様々な表現学習モデルよりも優れた性能を発揮することができます。 私たちは、VisEが画像の認知的側面に焦点を当てた将来の研究を刺激し、促進することを期待しています。 研究成果が認められれば、事前に学習されたモデルが公開されます。
ソーシャルメディアプラットフォームにおけるビジュアルエンゲージメントは、コメント、シェア、「いいね!」などの写真投稿に対するインタラクションで構成されています。 本論文では、このような視覚的エンゲージメントの手がかりを、表現学習のためのスーパーバイザリー・シグナルとして活用する。 しかし、エンゲージメント信号からの学習は、低レベルの視覚情報と高レベルの社会的相互作用の間のギャップを埋める方法が明らかでないため、自明ではない。 本研究では、社会的な画像を、エンゲージメントシグナルのクラスタ化によって得られる疑似ラベルにマッピングする、弱い教師付き学習アプローチであるVisEを発表する。 そして、この方法で学習したモデルが、感情認識や政治的バイアスの検出など、主観的な下流のコンピュータビジョンタスクにどのように役立つかを研究します。 広範囲な研究を通して、従来の認識の範囲を超えた多様な分類タスクにおいて、VisEの有効性を実証的に示します。