e4exp / paper_manager_abstract

0 stars 0 forks source link

Learning Open-World Object Proposals without Learning to Classify #612

Open e4exp opened 3 years ago

e4exp commented 3 years ago

オブジェクトプロポーザルは、オブジェクト検出、弱教師付き検出、オブジェクトディスカバリー、トラッキングなど、多くのビジョンパイプラインの不可欠な前処理ステップとなっています。 学習を必要としない手法と比較して、学習ベースのプロポーザルは、オブジェクト検出への関心の高まりを受けて、最近人気が高まっています。 一般的なパラダイムは、オブジェクト領域とそれに対応するカテゴリのセットでラベル付けされたデータから、オブジェクトプロポーザルを学習することである。

しかし、このアプローチでは、学習セットには存在しないオープンワールドの新規オブジェクトに苦戦することが多い。 本論文では、既存の提案手法における二値分類器が訓練カテゴリに過剰適合する傾向があることが問題であると特定する。 そこで我々は、分類を必要としないオブジェクト・ローカライゼーション・ネットワーク(OLN)を提案する。 OLNでは、ある領域の位置と形状が、どのようなグランドトゥルース・オブジェクト(センダネスやIoUなど)とどれだけ重なっているかによって、純粋に各領域のオブジェクトネスを推定する。 このシンプルな戦略は、一般化可能なオブジェクトネスを学習し、COCOでのカテゴリ横断的な一般化や、RoboNet、Object365、EpicKitchensでのデータセット横断的な評価において、既存の提案を上回る性能を発揮する。 最後に、大規模な語彙データセットであるLVISにおいて、ロングテールオブジェクト検出におけるOLNのメリットを実証し、希少なカテゴリと一般的なカテゴリにおいて明らかな改善が見られた。

e4exp commented 3 years ago

1. はじめに

オブジェクトプロポーザルとは,高い可能性でオブジェクトを含む領域または境界ボックスのセットである[33, 41, 42, 45, 59-61, 74]. オブジェクトプロポーザルは,オブジェクト検出[33,41,42,45,59,74],セグメンテーション[3,8,13],オブジェクトディスカバリー[12,16,47],弱教師付きオブジェクト検出[5,21,53],ビジュアルトラッキング[35,63],コンテンツアウェアリターゲティング[51]など,多くのコンピュータビジョンシステムにおいて,不可欠な前処理ステップとなっている. オブジェクト検出の成功により、最近のオブジェクト提案研究のトレンドは、オブジェクト発見から検出へと移行しています。 物体発見提案の目的は,画像中のあらゆる物体を提案することであるが,検出提案の目的は,下流の分類器に対してラベル付けされたカテゴリのみを提案することである. 学習ベースの提案は,シンプルで,下流の検出器と計算を共有できるため,人気のある検出提案である. しかし,学習不要のものとは異なり,これらの手法は,アノテーションされたカテゴリに過剰に適合し,新規のオブジェクトに苦戦する傾向がある[33, 41, 64]. 私たちは、両方の長所を組み合わせて、"オープンワールド(新規)オブジェクトの提案を学習する "ことが可能かどうかを問いたいと思います。 これにより、オープンワールド検出[30]/セグメンテーション[66]、ロボットの把持[15]、自己中心的なビデオ理解[14]、および大規模な語彙検出[24]などの有望なアプリケーションのための学習ベースの提案を解き放つ可能性がある。 オブジェクトアノテーションのセットが与えられたとき、一般的なオブジェクトがどのように見えるかを学習し、見たことのないカテゴリや新しいデータソースから非常に似ていないオブジェクト候補を提案したいと考えています。 これは、人間が新しい環境で、カテゴリを指定せずに新規のオブジェクトを検出する能力と一致します。

我々の主な洞察は、既存のオブジェクトプロポーザ[33, 41, 60]やクラスアグノスティックディテクタ[45, 56]に含まれる分類器は、このような一般化を妨げるということである。 なぜなら、モデルはラベル付けされたオブジェクトに過剰に適合し、トレーニングセット内のラベル付けされていないオブジェクトをバックグラウンドとして扱う傾向があるからである。 我々が提案するObject Localization Network (OLN)は、前景と背景の分類を行う代わりに、領域がどれだけローカライズされているかを予測することでオブジェクトの検出を学習する。 このシンプルなアイデアにより、モデルはより強い物体性の手掛かりを学習することができます。 我々の知る限りでは、新規の物体を提案するために純粋な局在性に基づいた物体性を学習する価値を示したのは我々が初めてである。 しかし、局在性の質の推定を組み込むというアイデアは、標準的な固定カテゴリの検出設定において他の人々によって提案されている[28, 29, 56, 69]。 本論文では、分類器を必要としないオブジェクトプロポーザが、最適なカテゴリ間およびデータセット間の一般化を達成するための鍵となることを示し、これが既存のプロポーザやクラス不可知論的検出器との重要な設計上の違いとなる。

既存の研究[33, 41, 64]に倣い、COCOクロスカテゴリーの設定でOLNの有効性を研究する。 シンプルであるにもかかわらず、OLNは新規カテゴリーにおいて、AUC +3.3 (+5.0 AR@10, +5.1 AR@100)で最先端の技術を上回った。 我々のアブレーションの研究では、前景-後景分類法の使用は不利であり、ローカライズが有効であることが確認されました。 さらに,COCO から RoboNet [15],Objects365 [48],EpicKitchens [14] へのデータセット横断的な一般化についても研究しています. RoboNetを選択した理由は、ロボットによる把持アプリケーションでよく使われる新規のオブジェクトが幅広く含まれていることと、適切な評価のために信頼性の高い網羅的なアノテーションが可能なビン環境であることである[9]。 RoboNet上では、OLNはクラスに依存しない網羅的な物体検出を行い、標準的な手法よりもAPが13∼16向上し、Objects365上では、OLNは標準的な手法よりもAR@10が4向上し、AR@100が8向上した。 EpicKitchens [14]での定性的な視覚化により、OLNは様々な新規オブジェクトの検出において標準的なアプローチよりも優れていることがさらに示された。 最後に、OLNをRPN[45]の代替としてLVISロングテール検出[24]に適用したところ、+1.4APの増加が見られ、そのほとんどがレア(+3.4APr)とコモンカテゴリ(+1.8APc)に起因している。 これは、OLNが大語彙の検出においてロングテールを捉えることができることを示しています。 ローカライズ品質を推定することは、標準的な検出では新しいことではないが、それらは常に分類と一緒に使用され、FCOS[56]などのように、見たことのあるカテゴリのみで検証されることは注目に値する。 我々の知る限り,物体提案のために,分類とは独立したローカライゼーション・キューの利用を検討したのは我々が初めてである. この発見により,COCOに対して顕著な利益を得ることができ,また,既存の手法よりも多くの異種データセットに一般化することができる. 我々の貢献は以下のようにまとめられる。

e4exp commented 3 years ago

2. 関連項目

以下では,提案や検出の品質を向上させるための既存の取り組みや,検出をより多くの視覚的カテゴリーに拡大する取り組みについて説明します.

オブジェクトの提案。

初期の作品では,カテゴリに依存しないオブジェクト提案 [2, 4, 18, 39, 74] に重点が置かれており,カテゴリに関係なく画像内のすべてのオブジェクトのインスタンスを識別することを目的としていた. これらの作品では、一般的なオブジェクトの概念[59, 74]、すなわち、色のコントラストやエッジをキャプチャするために、手作りのヒューリスティックを利用しています。 近年,学習ベースのプロポーザル[23, 33, 36, 41, 45]は,精度と再現率の両方において古典的なアプローチよりも優れた性能を示しており,2段階検出器の重要な部分を占めている.

代表的な例として,地域提案ネットワーク(RPN)[45]があり,これは,与えられた画像の中で物体を含む可能性のある一連の領域を特定し,下流の検出モジュールがこれを使用して物体のローカライズと分類を行うものである. 最終的な検出タスクを高速化するために,このような領域提案の品質を向上させ,その数を減らすために,多くのフォローアップ作品[23, 60, 61, 72]が提案されている. 実際、これらの提案モジュールは、検出器モジュールとエンド・ツー・エンドで訓練されており、オブジェクトネスの概念は、データセット内の訓練カテゴリのセットによって定義されています。 学習ベースの提案は、既知の教師付きカテゴリのオブジェクトの検出では進歩しているものの、新規オブジェクトではまだ苦戦しています。

我々の研究とより密接な関係があるのは、見たことのないクラスに対するオブジェクト提案の一般化に関する研究である。 Chavaliら[9]は、未知のオブジェクトクラスの検出はベンチマークプロトコルで明示的にペナルティが課せられているため、標準的な提案評価はオブジェクト提案のカテゴリ非依存性を評価する上で問題があり、「ゲーム可能」であることを示しています。 Wangら[64]は、データセットの観点から汎化を研究し、学習データセットの視覚的多様性とラベルの粒度がオブジェクト提案者の汎化に与える影響を実証した。 対照的に、我々は、新しいカテゴリや新しいデータセットに一般化できるオブジェクトプロポーザを設計する際のモデリングの選択に焦点を当てている。

マルチクラス検出。

監督の程度や質が異なるオブジェクトカテゴリ間の共通性を転送することで、検出のためのクラス数を拡大するために多くの努力がなされてきた。 弱い教師付きのアプローチ[5, 7, 17, 54, 62]は、豊富な画像レベルのラベルを利用し、クラスを問わないボックス提案を活用して検出器を構築することを目的としている。 半教師付きのアプローチ[27,44,49,50,55,58,73]は、新規クラスのための弱い画像レベルのラベルと、基本クラスのためのボックスレベルのラベルを採用している。 例えば,YOLO-9000[44]やR-FCN-3000[49]では,ボックスレベルと画像レベルのデータを同時に学習することで,検出器のクラスカバレッジを拡大している. 知識伝達に基づく手法は,意味的階層における類似性に基づいて,ベースクラスから新規クラスへの提案の伝達を学習する. この研究は,少数のサンプルやクラス記述を用いて新規クラスの検出を試みる,few-shot [10, 31, 67, 68, 71] や zero-shot detection [6, 20, 43, 70] とも関連している.

上記のクラス固有の検出器とは対照的に,我々の目標は,カテゴリーの概念を超えて,カテゴリーに依存しない方法で(分類なしで)すべてのオブジェクトを検出することである. マルチクラス検出器は多くのカテゴリを列挙しているにもかかわらず、見たことのない/知らないオブジェクトのカテゴリを一般化することができません。

スケールの大きい検出のためのデータセットの取り組み。

既存のデータセットは、単一のデータセットの設定に焦点を当てている[19, 24, 34, 38, 48]。 あるデータセットで学習したモデルは,同じデータセットでしか評価されない. 最近では,Robust Vision Challenge [1]が,クロスデータセットのベンチマークへの第一歩となっている. 我々は、あるデータセットでオブジェクトネスを学習した場合、クラス固有の情報よりも顕著性の手がかりの方がより一般化できる傾向があるため、別のデータセットにも移行できるはずだと仮定している。 そこで、本研究では、COCOで学習した後、他のデータセットでテストするという一般化の設定を研究する。 RoboNet[15]、Objects365[48]、EpicKitchens[14]、LVIS[24]。

物体検出のためのローカリゼーション・キュー

研究者たちは, centerness の学習 [56],反復的な提案の改良 [60],または box/mask IoU 予測 [28, 29, 57]によって,物体検出におけるローカライゼーション品質を向上させる多くの方法を研究してきた. これらのアプローチは,標準的な物体検出タスクにおいて有意義な改善を示している. しかし,これらの手法が新しいカテゴリに適用できるかどうかは,まだ未解決の問題である. また、これらの手法は、分類器の出力と一緒にこれらのローカリゼーションキューを使用しています。

e4exp commented 3 years ago

3. 提案手法

3.1. ベースライン

3.2節と3.3節でOLNについて説明する前に、同じ未見のカテゴリの一般化問題に対処できるベースラインを定義したい。 領域提案ネットワーク(RPN)[45, 60, 61]は、物体検出における物体性学習の最も一般的なアプローチである。 RPNは、画像内のすべてのオブジェクトをカテゴリーに関係なく提案することを目的としているが、実際には、オープンワールドで新規のオブジェクトに遭遇した場合には、しばしば苦戦する。 もう一つのベースラインは、既存のオブジェクト検出器を、アノテーションされたすべてのカテゴリを1つの前景カテゴリとして扱うことで、クラスにとらわれない方法で学習することです。 OLNはRPNとFaster R-CNNの上に構築されているので、本稿ではこの2つを強力なベースラインとして使用しています。 さらに、領域提案[45, 60, 61]や物体検出[25, 45, 56]における様々な最先端モデルとの比較を行っています。 後の実験で見られるように、OLNは様々な一般化シナリオにおいて、これらのモデルよりも優れている。

3.2. 純粋なローカリゼーションに基づくオブジェクトネス

学習ベースのオブジェクト提案の文脈では、「オブジェクト」はアノテーションされたカテゴリのセットとして定義され、オブジェクトネスの学習は、ある領域が事前に定義されたカテゴリの組合わせに属するかどうかという二値の分類タスクとして行われる。 しかし、我々の主な洞察は、このような前景-背景問題の差別的な学習は、モデルがラベルのない/未知のオブジェクトを背景として分類するように学習するため、一般化を妨げるということである。 この問題を解決するために、我々は非差別的で分類を必要としない「オブジェクトネス」の概念を提案する。 オブジェクトネス」の分類的な考え方は、"この領域がどれだけ前景のオブジェクトに似ているか?"を問うことである。 ローカライズの観点からは、代わりに「この領域がどのようなグランドトゥルースオブジェクトとどれだけ重なっているか」を問うことになる。 私たちの直感では、すべてのオブジェクトは、そのカテゴリに関係なく、その位置と形状によって特徴付けられると考えています。 OLNはこれらの幾何学的な手掛かりを利用して、提案された領域のオブジェクトネスを捉える。 我々は、ローカライゼーション(位置と形状)の品質に基づいて学習されたオブジェクトネスキューが、ラベル付けされたカテゴリやデータソースを超えて、オブジェクト提案の一般化を向上させることができることを実証する。 位置と形状の品質測定には、それぞれ centerness [56] と IoU score [29] を採用するが、Dice coefficient [40] や generalizedIoU [46] などの他の選択肢を制限するものではない。

定位品質を組み込むというアイデアは、物体検出において全く新しいものではない。 いくつかの作品[28, 29, 56, 57]では、局在化サブネットと分類サブネットの両方を用いて、最終的な検出信頼度を再調整している。 しかし、これらのローカリゼーションキューは、分類器の補助的なものであり、カテゴリー内検出のために考案されたものであることに注意してほしい。 対照的に、純粋な局在化ベースの対象性は、カテゴリを超えて、またデータセット間で一般化するための鍵であり、分類ヘッドは一般化を著しく阻害することを実証している。 我々の知る限りでは、この直感は先行研究では議論されていない。

3.3. オブジェクト・ローカライゼーション・ネットワーク(OLN)

OLNの目的は、オブジェクトのローカライゼーションを学習し、新しいカテゴリーや見たことのないカテゴリーへのより良い汎化を可能にすることである。 OLNは、2段階のオブジェクト提案を行う(図2参照)。 Faster R-CNN [45]と同様に、OLNは完全畳み込みのFCNステージとリージョンベースのROIステージで構成されているが、主な違いはFPNとROIステージの両方の分類器がローカライズ品質予測に置き換えられていることである。

OLN-RPN。

この領域提案ステージへの入力は、ResNetの特徴ピラミッドの各レベルの特徴である[37]。 それぞれの特徴マップは、畳み込み層を経て、バウンディングボックス回帰用の層と、ローカライズ品質予測用の層の2つに分かれます。 ネットワーク・アーキテクチャの設計は、標準的なRPNヘッドに従っている。 ここでは定位品質の目標として centerness [56] を選択し、両方のヘッドを L1 損失で学習する。 提案段階で分類ではなく定位を学習することは、分類による前景へのオーバーフィッティングを回避するために重要である。 定位品質推定ブランチの学習では、IoUが0.3より大きい256個のアンカーを、マッチしたグランドトゥルース・ボックスと一緒にランダムにサンプリングし、明示的なバックグラウンド・サンプリングは行わない。 ボックス回帰では、標準的なボックスデルタターゲット(xyhw)を、[56]にあるように、位置からグランドトゥルースボックスの4辺までの距離(lrtb)に置き換える。 RPNでは1つの特徴点につき3つのアンカーを使用したが、OLNでは1つの特徴点につき1つのアンカーを使用することにした。

OLN-Box。

OLN-RPNからトップスコア(例えば、中心がしっかりしている)の提案を取り出し、RoIAlign[25]を実行して、各特徴ピラミッドレベルから領域特徴を抽出する。 次に、各リージョン特徴を線形化して2つのfc層に通し、続いてバウンディングボックス回帰用とローカライズ品質予測用の2つの別々のfc層に通します。 Faster R-CNN heads [45]と同じネットワークアーキテクチャを使用しています。 定位品質の目標値として IoU を選択し、両方のヘッドを L1 の損失で訓練します。 第2段階で定位品質を学習することは、モデルが提案スコアリングを改良し、同時に前景へのオーバーフィッティングを回避するために不可欠である。 IoU学習のために手動でプロポーザルを生成する必要があるIoU-Netと比較して、OLNはOLN-RPNのプロポーザルとグランドトゥルースのボックスからIoUターゲットを直接計算するため、計算コストを大幅に削減することができます。

拡張 - OLN-Mask。

我々は、より多くの局在化学習によって、我々のフレームワークの一般化能力をさらに向上させることができるかどうかを調査する。 この目的のために、我々はOLNBoxモデルを拡張し、マスクR-CNNのクラス診断可能なFCNマスクヘッドを追加してマスク予測を行うようにし、これをOLN-Maskモデルと呼ぶ。 我々のOLNの哲学に従い、またMS R-CNN[28]と同様に、我々は予測されるマスクとそのGTマスクの間のIoUを回帰することを学習する。 我々のマスク-IoU予測器は、FCNマスクヘッドの第4層から直接分岐しており、マスク予測からのフィードバック接続はありません。 IoU予測器は、3×3の畳み込み層、最大プーリング層、3つの完全連結層から構成されています。 また、IoU回帰にはsmooth-L1 lossを用いています。

推論

推論の際、領域sのオブジェクトネス・スコアは、OLN-RPNおよびOLN-Boxブランチによって推定されたセンタネスcおよびIoUスコア(ボックス:b、マスク:m)の幾何学的平均として計算される。 OLN-Boxでは、スコアs = √(c - b)である。OLN-Maskの場合、スコアはs = 3√ (c - b - m)である。