e4exp / paper_manager_abstract

0 stars 0 forks source link

Inverting and Understanding Object Detectors #588

Open e4exp opened 2 years ago

e4exp commented 2 years ago

コンピュータビジョンの中核的な問題である物体検出の性能は,ここ数年で飛躍的に向上している. その素晴らしい性能にもかかわらず、物体検出器は解釈可能性の欠如に悩まされています。 可視化技術は、他の種類の深層学習モデルによる決定を内省するために開発され、広く適用されていますが、物体検出器の可視化については十分に検討されていません。 本論文では、最新の物体検出器を理解するための主要なツールとして反転を使用することを提案し、レイアウト反転に対する最適化ベースのアプローチを開発することで、訓練された検出器が所望の構成の物体を含むと認識した合成画像を生成することができます。 レイアウト反転技術をさまざまな最新の物体検出器に適用することで、検出器の興味深い特性を明らかにし、検証実験によってさらに詳しく調べました。 これらの検出器は、分類や回帰において質的に異なる特徴に依存し、よく共起する物体の正準モチーフを学習し、さまざまなサイズの物体を認識するために異なる視覚的手がかりを使用します。 私たちの洞察が、オブジェクト検出器の改良に役立つことを期待しています。

e4exp commented 2 years ago

image

1. はじめに

物体の分類と位置の特定を同時に行う物体検出は,コンピュータビジョンの中核的なタスクであり,自律走行車,生物医学イメージング,コンテンツ推薦などの用途に広く用いられている. 深層学習は,この課題の急速な進展を可能にし,畳み込みネットワークに基づく検出器は,困難なデータセット[31, 17]において正確[15, 50, 19]かつ効率的[32, 45, 30, 4]になりました. 印象的な性能にもかかわらず、物体検出器は(他の深層学習モデルと同様に)解釈可能性の欠如に悩まされています。 オブジェクト検出器の内部表現や判断は不透明であり,その判断に用いられる視覚的な手がかりも明らかではありません. オブジェクト検出器の理解を深めることは,研究者がエラーを診断するのに役立つだけでなく,最終的には,畳み込みネットワーク[66],リカレントネットワーク[25, 28],敵対的ネットワーク[3]など,他の種類の深層学習モデルを視覚化して理解するための技術が先行して開発されています.

これらの技術を物体検出器に一般化することは,物体検出器の出力が高度に構造化されているため,容易ではありません. 画像分類モデルが画像ごとに1つのカテゴリーラベルを与えるのに対し,物体検出器は,分類,位置特定,(オプションで)セグメンテーションを含む,さまざまなサイズの検出結果を出力します[18, 19]. また、オブジェクト検出器は、予測されたオブジェクトと画像ピクセルの間の勾配経路を壊す非最大抑制(NMS)のような非微分操作に依存しており、他のモデルタイプを可視化するために使用されるna¨ve gradient ascentの使用を妨げる。

本論文では、ネットワーク可視化技術を最新のオブジェクト検出器に拡張し、これらのモデルへの洞察を得て理解を深めます。 主な調査ツールとして、レイアウト反転(図1)の最適化ベースのアプローチを提案し、訓練された検出器によって望ましいオブジェクトの構成を含むと認識される合成画像を生成します。 ADMM(Alternating Direction Method of Multipliers)[5]にヒントを得た交互最適化アルゴリズムを用いて,非微分性を回避します.

セクション4.1では,我々のレイアウト反転法が,メタアーキテクチャが異なり(シングルステージと2ステージ,アンカーベースとアンカーフリー),異なるタスク(オブジェクト検出とインスタンスセグメンテーション)のために訓練された多種多様な最新のオブジェクト検出器に適用できることを示している. セクション4.2では,反転転送を用いて,ある検出器から生成された画像が別の検出器で認識できるかどうかを確認することで,レイアウト反転の性能を定量化している. これにより、レイアウト反転アプローチの有効性を検証するとともに、検出器ごとに異なる視覚的な手がかりに依存しているかどうかを測定することができます。 オブジェクト検出器は、どのようなオブジェクトが存在し、どこにあるのかを予測します。 セクション4.3では,検出器の分類,回帰,セグメント化の各ヘッドの組み合わせを変えてレイアウト反転を行い,これらのサブタスクの効果を分離した. これらの実験により、検出器は分類とローカライズのために質的に異なる視覚的特徴に依存していることがわかった。 さらに、帰属法を用いて、分類と回帰が異なる画像領域に依存していることを明らかにしました。 完全なレイアウト反転では、ターゲットとなる一連の領域が検出器によってオブジェクトとして認識され、他のすべての領域が背景として棄却されるような画像を見つける必要がある。 セクション4.4では、1つのオブジェクトが前景として認識されることを必要とするレイアウト反転を行い、他の領域が棄却されるという要件を省略することで、オブジェクト検出器によって学習されたプライアを調査する。 セクション4.4.1では、文脈の役割を調査し、検出器が共通して共起するオブジェクトのカノニカルなモチーフを学習することを実証しました。 このことから、検出器は文脈に大きく依存して認識を行っているという仮説を立てた。 4.4.2節では,物体の大きさが異なると,検出器が認識のために質的に異なる特徴に依存することを観察した. 小さな物体は主に形と文脈によって認識され、大きな物体は部分とテクスチャーの融合として認識されます。我々はこの仮説を、マスクされたスタイル転写によって物体のテクスチャを除去することで定量化しました。

我々の貢献は2つあります。 第一に、我々の実験は、提案されたレイアウト反転が、オブジェクト検出器をイントロスペクトするための多目的ツールであることを示している。 第二に,反転を用いてこれらのモデルの内部構造に関する新しい洞察を得て,これらの仮説を検証するための実験を行った.

これらの洞察が、将来、実務者がこれらのモデルをよりよく理解し、性能を向上させるのに役立つことを期待しています。