K J Joseph†‡, Salman Khan‡*, Fahad Shahbaz Khan‡◇, Vineeth N Balasubramanian†
affiliation
†Indian Institute of Technology Hyderabad, India ‡Mohamed bin Zayed University of AI, UAE
*Australian National University, Australia ◇Linkoping University, Sweden
人間には、環境中の未知のオブジェクトインスタンスを識別する自然な本能があります。これらの未知のインスタンスに対する本質的な好奇心は、対応する知識が最終的に利用可能になったときに、それらについて学ぶのに役立ちます。このような背景から、我々は「Open World Object Detection」という新しいコンピュータビジョン問題を提案する。この問題では,モデルが以下のことを行うことが求められる.すなわち,
発達心理学の研究[41, 36]によると,自分が知らないことを特定する能力は,好奇心をかきたてる鍵である。このような好奇心は,新しいことを学びたいという欲求を刺激します [9, 16].このことから、我々は、モデルが未知のオブジェクトのインスタンスを未知のものとして識別することができ、その後、学習データが徐々に到着したときにそれらを認識することを統一的に学習するという新しい問題を提案することになった。この問題設定を「Open World Object Detection」と呼びます。
Pascal VOC[10]やMS-COCO[32]のような標準的なビジョンデータセットにアノテーションされているクラスの数は、オープンワールドに存在する無限のクラスの数に比べて非常に少ない(それぞれ20と80)。未知のものを未知のものとして認識するには、強力な一般化が必要です。Scheirerら[57]は、これをOpen Set分類問題として公式化しています。これ以降、この困難な設定に対処するための様々な方法論(1-vs-rest SVMsや深層学習モデルを使用)が策定されています。Bendaleら[3]は、識別された新しい未知のクラスを認識するために画像分類器を追加更新することで、オープンセットをオープンワールド分類設定に拡張しています。興味深いことに、図1に見られるように、オープンワールドでの物体検出は、問題設定の難しさのために、未開拓です。オープンセットとオープンワールドの画像分類の進歩は、問題設定の根本的な違いのため、オープンセットとオープンワールドのオブジェクト検出に簡単には適応できません。オブジェクト検出器は、未知のオブジェクトを背景として検出するように訓練されています。多くの未知のクラスのインスタンスは、既知のオブジェクトと一緒にオブジェクト検出器に導入されています。未知のクラスのインスタンスはラベル付けされていないため、検出モデルを学習する際に、これらの未知のインスタンスを背景として明示的に学習します。Dhamijaら[8]は,このような追加の学習信号があったとしても,最先端のオブジェクト検出器では,未知のオブジェクトが既知のクラスの1つとして分類されてしまい,しばしば非常に高い確率で誤検出されてしまうことを発見した.Millerら[43]は,ドロップアウトサンプリングを用いて,物体検出予測の不確実性の推定値を得ることを提案している.これは、オープンセットオブジェクト検出の文献の中で、唯一の査読付きの研究成果です。我々の提案するOpen World Object Detectionは、さらに一歩進んで、新しいクラスが未知として検出され、オラクルが全ての未知のオブジェクトの中から興味のあるオブジェクトのラベルを提供した後、そのクラスを段階的に学習する。我々の知る限りでは、これは文献では試みられていない。
Open World Object Detectionの設定は、既存の閉じた世界での静的な学習の設定よりもはるかに自然です。この世界は、新しいクラスの数、種類、構成など、多様でダイナミックなものです。推論時に期待されるクラスがすべて学習時に見られると考えるのは甘いでしょう。ロボット工学、自動運転車、植物の表現型、ヘルスケア、監視などの分野で実用化されている検出システムでは、社内で学習している間に、推論時にどのクラスを期待するかについて完全な知識を得ることはできません。このような環境で展開される物体検出アルゴリズムに期待される最も自然で現実的な動作は、未知の物体を未知と予測し、既知の物体を対応するクラスに自信を持って予測することです。識別された未知のクラスに関する詳細な情報が得られた場合、システムは既存の知識ベースにそれらを組み込むことができるはずです。これがスマートな物体検出システムの定義であり、我々はこの目標を達成するための努力をしています。本研究の主な貢献点は以下の通りです。
Open World Object Detection という新しい問題設定を導入し、実世界をより詳細にモデル化します。
related work
Open Set Classification
オープンセット分類では,学習セットで得られた知識は不完全であると考え,テストの際に新しい未知のクラスに遭遇する可能性がある.Scheirerら[58]は,既知の訓練例から離れたサンプルにラベルを付けることの性能とリスク(オープンスペースリスクと呼ばれる)のバランスを取るために,1-vs-restの設定でオープンセット分類器を開発した.後続の研究[23, 59]では,未知のクラスの場合に分類器の信頼性が薄れていくことを考慮して,確率モデルを用いてオープンセットフレームワークを多クラス分類器の設定に拡張しました.Bendale and Boult [4]は、ディープネットワークの特徴空間で未知のクラスを特定し、ワイブル分布を用いてセットリスクを推定しました(OpenMax分類器と呼ばれます)。OpenMaxの生成版は、新規のクラス画像を合成することで、[13]で提案されました。Liuら[35]は,多数派,少数派,未知のクラスが共存するロングテールの認識設定を考えた.彼らは、見たことのないクラスを未知のクラスとして識別するメトリック学習フレームワークを開発した。同様に、分布から外れたサンプル[30]や新規性のあるサンプル[48]を検出することを目的とした、いくつかの専用のアプローチがある。最近では、自己教師付き学習(Self-Supervised Learning)[46]や教師なし学習(unsupervised Learning with reconstruction)[65]がオープンセット認識のために検討されている。しかし、これらの研究では、未知のインスタンスを認識することはできるが、複数の学習エピソードに渡って自分自身を動的に増加的に更新することはできない。さらに、我々のエネルギーに基づく未知の検出アプローチは、これまでに検討されていない。
Open World Classification
[3]は,画像認識におけるオープンワールド設定を初めて提案した.彼らは,固定されたクラスのセットで学習された静的な分類器の代わりに,既知のものと未知のものが共存する,より柔軟な設定を提案した.このモデルは、両方のタイプのオブジェクトを認識することができ、未知のものに対する新しいラベルが提供されたときに、適応的にモデルを改善することができる。彼らのアプローチは、オープンスペースのリスクのバランスをとるためにクラス確率を再調整することで、オープンワールドの設定で動作するようにNearest Class Mean分類器を拡張しています。また、[47]はオープンワールドでの顔識別学習を研究しており、[64]は見たことのあるクラスの模範セットを用いて新しいサンプルと照合し、以前に知られていたすべてのクラスとの照合が低い場合には拒否することを提案している。しかし,これらは画像分類のベンチマークではテストしておらず,電子商取引のアプリケーションにおける商品分類を研究している.
Open Set Detection
Dhamijaら[8]は,オープンセットの設定が一般的なオブジェクト検出器に与える影響を正式に研究しました.彼らは,最新のオブジェクト検出器は,未知のクラスを高い信頼度で見たクラスに分類することが多いことに気づきました.これは,検出器が背景クラスを用いて明示的に学習されているにもかかわらず[55, 14, 33],あるいは,各クラスをモデル化するために one-vs-rest 分類器を適用しているにもかかわらず[15, 31]である.未知のクラスを拒絶するために,物体検出器における(空間的および意味的な)不確実性の尺度を開発することに焦点を当てた研究がある[43, 42, 17].例えば,[43, 42]では,SSD検出器においてモンテカルロ・ドロップアウト[12]サンプリングを用いて不確実性の推定値を求めている.しかし,これらの手法は,動的な世界では知識を段階的に適応させることができない.
提案手法
ORE:
Open World Object Detector(オープンワールドオブジェクト検出) Open World Object Detection(オープンワールドオブジェクト検出)を成功させるためには、明示的な監視なしに未知のインスタンスを識別することができ、識別された新規インスタンスのラベルが知識アップグレードのためにモデルに提示されたときに、(ゼロから再学習することなく)以前のインスタンスを忘れてはならない。我々は、これら2つの課題を統合的に解決するソリューション「ORE」を提案します。
潜在空間Fにおける特徴(f∈F)と、それに対応するラベルl∈Lが与えられた場合、エネルギー関数E(F, L)を学習することを求める。我々の定式化は、観測された変数Fと可能な出力変数Lのセットの間の互換性を推定する関数E(-)を、単一の出力スカラー、すなわちE(f) : R d → Rを用いて学習するEnergy based model (EBM) [27]に基づいている。
EBMの本質的な能力は、in-distributionデータに低いエネルギー値を割り当てたり、逆にサンプルが未知のクラスからのものであるかどうかを特徴づけるために、エネルギー指標を使用することになります。
具体的には、Helmholtzの自由エネルギーを用いて、Lのすべての値のエネルギーを組み合わせます。
INFO
author
K J Joseph†‡, Salman Khan‡*, Fahad Shahbaz Khan‡◇, Vineeth N Balasubramanian†
affiliation
†Indian Institute of Technology Hyderabad, India ‡Mohamed bin Zayed University of AI, UAE *Australian National University, Australia ◇Linkoping University, Sweden
conference or year
CVPR 2021 (Oral)
link
arXiv 実装
概要
人間には、環境中の未知のオブジェクトインスタンスを識別する自然な本能があります。これらの未知のインスタンスに対する本質的な好奇心は、対応する知識が最終的に利用可能になったときに、それらについて学ぶのに役立ちます。このような背景から、我々は「Open World Object Detection」という新しいコンピュータビジョン問題を提案する。この問題では,モデルが以下のことを行うことが求められる.すなわち,
1)これまでに紹介されていないオブジェクトを,明示的な監督なしに「未知」として識別すること, 2)対応するラベルを徐々に受け取ったときに,以前に学習したクラスを忘れることなく,識別された未知のカテゴリを段階的に学習すること.
我々は、この問題を定式化し、強力な評価プロトコルを導入して、「ORE」と呼ぶ新しいソリューションを提供します。OREは、コントラストクラスタリングとエネルギーベースの未知の識別に基づいています。我々の実験的評価とアブレーションの研究は、オープンワールドの目的を達成するためのOREの有効性を分析しています。興味深い副産物として、未知のインスタンスを識別して特徴づけることで、インクリメンタルな物体検出の設定において混乱を減らすことができ、方法論的には余分な努力をすることなく、最先端の性能を達成することができました。私たちの研究が、新たに特定された、しかし極めて重要な研究の方向性について、さらなる研究を呼び起こすことを期待しています1。
intro 深層学習は、物体検出の研究[14, 54, 19, 31, 52]を加速させました。この研究では、モデルが画像内の物体を識別し、位置を特定することを課題としています。既存のアプローチは,検出されるべきクラスがすべて学習段階で利用可能であるという強い仮定の下で動作します.この仮定を緩めると、2つの難しいシナリオが発生します。
1) テスト画像には,未知のクラスのオブジェクトが含まれている可能性があり,それらは未知のクラスとして分類されるべきである. 2) そのような未知のクラスに関する情報(ラベル)が利用可能になったとき、モデルは新しいクラスを段階的に学習することができなければならない。
発達心理学の研究[41, 36]によると,自分が知らないことを特定する能力は,好奇心をかきたてる鍵である。このような好奇心は,新しいことを学びたいという欲求を刺激します [9, 16].このことから、我々は、モデルが未知のオブジェクトのインスタンスを未知のものとして識別することができ、その後、学習データが徐々に到着したときにそれらを認識することを統一的に学習するという新しい問題を提案することになった。この問題設定を「Open World Object Detection」と呼びます。
Pascal VOC[10]やMS-COCO[32]のような標準的なビジョンデータセットにアノテーションされているクラスの数は、オープンワールドに存在する無限のクラスの数に比べて非常に少ない(それぞれ20と80)。未知のものを未知のものとして認識するには、強力な一般化が必要です。Scheirerら[57]は、これをOpen Set分類問題として公式化しています。これ以降、この困難な設定に対処するための様々な方法論(1-vs-rest SVMsや深層学習モデルを使用)が策定されています。Bendaleら[3]は、識別された新しい未知のクラスを認識するために画像分類器を追加更新することで、オープンセットをオープンワールド分類設定に拡張しています。興味深いことに、図1に見られるように、オープンワールドでの物体検出は、問題設定の難しさのために、未開拓です。オープンセットとオープンワールドの画像分類の進歩は、問題設定の根本的な違いのため、オープンセットとオープンワールドのオブジェクト検出に簡単には適応できません。オブジェクト検出器は、未知のオブジェクトを背景として検出するように訓練されています。多くの未知のクラスのインスタンスは、既知のオブジェクトと一緒にオブジェクト検出器に導入されています。未知のクラスのインスタンスはラベル付けされていないため、検出モデルを学習する際に、これらの未知のインスタンスを背景として明示的に学習します。Dhamijaら[8]は,このような追加の学習信号があったとしても,最先端のオブジェクト検出器では,未知のオブジェクトが既知のクラスの1つとして分類されてしまい,しばしば非常に高い確率で誤検出されてしまうことを発見した.Millerら[43]は,ドロップアウトサンプリングを用いて,物体検出予測の不確実性の推定値を得ることを提案している.これは、オープンセットオブジェクト検出の文献の中で、唯一の査読付きの研究成果です。我々の提案するOpen World Object Detectionは、さらに一歩進んで、新しいクラスが未知として検出され、オラクルが全ての未知のオブジェクトの中から興味のあるオブジェクトのラベルを提供した後、そのクラスを段階的に学習する。我々の知る限りでは、これは文献では試みられていない。
Open World Object Detectionの設定は、既存の閉じた世界での静的な学習の設定よりもはるかに自然です。この世界は、新しいクラスの数、種類、構成など、多様でダイナミックなものです。推論時に期待されるクラスがすべて学習時に見られると考えるのは甘いでしょう。ロボット工学、自動運転車、植物の表現型、ヘルスケア、監視などの分野で実用化されている検出システムでは、社内で学習している間に、推論時にどのクラスを期待するかについて完全な知識を得ることはできません。このような環境で展開される物体検出アルゴリズムに期待される最も自然で現実的な動作は、未知の物体を未知と予測し、既知の物体を対応するクラスに自信を持って予測することです。識別された未知のクラスに関する詳細な情報が得られた場合、システムは既存の知識ベースにそれらを組み込むことができるはずです。これがスマートな物体検出システムの定義であり、我々はこの目標を達成するための努力をしています。本研究の主な貢献点は以下の通りです。
Open World Object Detection という新しい問題設定を導入し、実世界をより詳細にモデル化します。
オープンワールド検出の課題を解決するために、コントラストクラスタリング、未知を考慮した提案ネットワーク、エネルギーに基づく未知の識別に基づいて、「ORE」と呼ばれる新しい手法を開発する。
本研究では、物体検出器のオープンワールド特性を測定するための包括的な実験設定を導入し、競合するベースライン手法と比較して、その上で ORE をベンチマークします。
興味深い副産物として、提案手法は、インクリメンタルオブジェクト検出のために設計されたものではないにもかかわらず、インクリメンタルオブジェクト検出において最先端の性能を達成しています。
related work Open Set Classification オープンセット分類では,学習セットで得られた知識は不完全であると考え,テストの際に新しい未知のクラスに遭遇する可能性がある.Scheirerら[58]は,既知の訓練例から離れたサンプルにラベルを付けることの性能とリスク(オープンスペースリスクと呼ばれる)のバランスを取るために,1-vs-restの設定でオープンセット分類器を開発した.後続の研究[23, 59]では,未知のクラスの場合に分類器の信頼性が薄れていくことを考慮して,確率モデルを用いてオープンセットフレームワークを多クラス分類器の設定に拡張しました.Bendale and Boult [4]は、ディープネットワークの特徴空間で未知のクラスを特定し、ワイブル分布を用いてセットリスクを推定しました(OpenMax分類器と呼ばれます)。OpenMaxの生成版は、新規のクラス画像を合成することで、[13]で提案されました。Liuら[35]は,多数派,少数派,未知のクラスが共存するロングテールの認識設定を考えた.彼らは、見たことのないクラスを未知のクラスとして識別するメトリック学習フレームワークを開発した。同様に、分布から外れたサンプル[30]や新規性のあるサンプル[48]を検出することを目的とした、いくつかの専用のアプローチがある。最近では、自己教師付き学習(Self-Supervised Learning)[46]や教師なし学習(unsupervised Learning with reconstruction)[65]がオープンセット認識のために検討されている。しかし、これらの研究では、未知のインスタンスを認識することはできるが、複数の学習エピソードに渡って自分自身を動的に増加的に更新することはできない。さらに、我々のエネルギーに基づく未知の検出アプローチは、これまでに検討されていない。
Open World Classification [3]は,画像認識におけるオープンワールド設定を初めて提案した.彼らは,固定されたクラスのセットで学習された静的な分類器の代わりに,既知のものと未知のものが共存する,より柔軟な設定を提案した.このモデルは、両方のタイプのオブジェクトを認識することができ、未知のものに対する新しいラベルが提供されたときに、適応的にモデルを改善することができる。彼らのアプローチは、オープンスペースのリスクのバランスをとるためにクラス確率を再調整することで、オープンワールドの設定で動作するようにNearest Class Mean分類器を拡張しています。また、[47]はオープンワールドでの顔識別学習を研究しており、[64]は見たことのあるクラスの模範セットを用いて新しいサンプルと照合し、以前に知られていたすべてのクラスとの照合が低い場合には拒否することを提案している。しかし,これらは画像分類のベンチマークではテストしておらず,電子商取引のアプリケーションにおける商品分類を研究している.
Open Set Detection Dhamijaら[8]は,オープンセットの設定が一般的なオブジェクト検出器に与える影響を正式に研究しました.彼らは,最新のオブジェクト検出器は,未知のクラスを高い信頼度で見たクラスに分類することが多いことに気づきました.これは,検出器が背景クラスを用いて明示的に学習されているにもかかわらず[55, 14, 33],あるいは,各クラスをモデル化するために one-vs-rest 分類器を適用しているにもかかわらず[15, 31]である.未知のクラスを拒絶するために,物体検出器における(空間的および意味的な)不確実性の尺度を開発することに焦点を当てた研究がある[43, 42, 17].例えば,[43, 42]では,SSD検出器においてモンテカルロ・ドロップアウト[12]サンプリングを用いて不確実性の推定値を求めている.しかし,これらの手法は,動的な世界では知識を段階的に適応させることができない.
提案手法
ニューラルネットワークは普遍的な関数近似器であり[22]、一連の隠れ層を通して入力と出力の間のマッピングを学習する。これらの隠れた層で学習された潜在的な表現は,各機能がどのように実現されるかを直接制御する。我々は,物体検出器の潜在空間におけるクラス間の明確な識別を学習することで,2つの効果が得られるのではないかと仮説を立てた.
対照的なクラスタリングを用いて未知のインスタンスを最適にクラスタリングするためには、未知のインスタンスが何であるかを監視する必要があります。しかし、潜在的に無限にある未知のクラスの小さなサブセットであっても、手動でアノテーションを行うことは不可能である。この問題に対処するために、我々はRegion Proposal Network(RPN)[54]に基づいた自動ラベル付けメカニズムを提案し、項4.2で説明するように、未知のインスタンスに擬似ラベルを付ける。自動ラベル付けされた未知のインスタンスが潜在空間に固有に分離されることで、エネルギーベースの分類ヘッドが既知のインスタンスと未知のインスタンスを区別することができる.4.3項で説明したように、未知のインスタンスではHelmholtz自由エネルギーが大きいことがわかります。
図2にOREのアーキテクチャの概要を示す。Dhamijaら[8]は、one-stage RetinaNet detector[31]やobjectness based YOLO[52]と比較して、Faster R-CNN[54]がオープンセットのパフォーマンスに優れていることを発見したので、基本的な検出器としてFaster R-CNN[54]を選択しました。Faster R-CNN [54]は,2段階のオブジェクト検出器です.第1段階では,クラスに依存しない領域提案ネットワーク(RPN)が,共有されたバックボーンネットワークから送られてくる特徴マップから,オブジェクトを持つ可能性のある潜在的な領域を提案する.第2段階では、提案された各領域のバウンディングボックスの座標を分類・調整します。関心領域(RoI:Region of Interest)ヘッドの残差ブロックによって生成された特徴は、対照的にクラスタリングされます。RPNヘッドと分類ヘッドは、それぞれ自動ラベル付けと未知の領域の識別に適応されます。これらの首尾一貫した構成要素のそれぞれについて、以下のサブセクションで説明する。
4.1. 対照的なクラスタリング 潜在空間におけるクラスの分離は、未知のものを識別するためのオープンワールド手法にとって理想的な特性です。これを実現するための自然な方法は、対比クラスタリング問題としてモデル化することである。つまり、同じクラスのインスタンスは近くに留まるように強制され、異なるクラスのインスタンスは遠くに押し出される。各既知のクラスi∈Ktに対して、プロトタイプ・ベクトルpiを保持する。fc∈Rdをクラスcのオブジェクトに対して、オブジェクト検出器の中間層で生成される特徴ベクトルとする。 (1) ここで,Dは任意の距離関数であり,Δは,似ているものと似ていないものがどれだけ近づけるかを定義する。 を定義します。この損失を最小化すると を最小化することで、潜在空間において望ましいクラス分けが可能になります。
各クラスに対応する特徴ベクトルの平均値を用いて、クラスのプロトタイプのセットを作成します。P = {p0 - - pC}となる。各プロトタイプ・ベクトルを維持することは、OREの重要な要素です。ネットワーク全体がエンド・ツー・エンドで学習されるため、構成する特徴が徐々に変化するのに合わせて、クラス・プロトタイプも徐々に進化する必要があります(確率的勾配降下法は、各反復において小さなステップで重みを更新するため)。対応する特徴量を格納するために、クラスごとに固定長のキューqiを保持します。特徴量ストアFstore = {q0 - - qC}は,クラス固有の特徴量を,対応するキューに格納します.格納される特徴ベクトルの数はC×Q(Qはキューの最大サイズ)で制限されるため,これは特徴ベクトルが学習によってどのように変化するかを追跡するためのスケーラブルなアプローチである.アルゴリズム1は,クラスタリング損失を計算する際にクラスのプロトタイプがどのように管理されるかについての概要を示している.損失の計算は,ある数のburnin反復(Ib)が完了してから開始する.これにより、初期の特徴埋め込みが成熟してクラス情報を符号化できるようになる。それ以降は,式(1)を用いてクラスタリング損失を計算する.すべてのIp反復の後、新しいクラスプロトタイプPnewのセットが計算される(8行目)。そして、PとPnewを運動量パラメータηで重み付けすることにより、既存のプロトタイプPが更新される。これにより、クラスのプロトタイプは、以前のコンテキストを追跡しながら徐々に進化していく。計算されたクラスタリング損失は、標準的な検出損失に追加され、ネットワークをエンドツーエンドで学習するためにバックプロパゲーションされます。
4.2. RPNによる未知の物体の自動ラベリング
式1を用いてクラスタリング損失を計算する際に、入力特徴ベクトルfcとプロトタイプベクトルを対比させる。プロトタイプベクトルには、未知のオブジェクトのプロトタイプも含まれる(c∈{0, 1, ..., C}、0は未知のクラスを表す)。これは、未知のオブジェクトのインスタンスに未知のグランドトゥルークラスをラベル付けする必要があるが、すでにアノテーションされた大規模データセットの各画像のインスタンスをすべて再アノテーションするという困難な作業のため、実際には実現不可能である。
そこで我々は、画像内のオブジェクトの一部を未知のオブジェクトとして自動的にラベル付けすることを提案する。これには、領域提案ネットワーク(RPN)がクラスに依存しないという事実を利用している。入力画像が与えられると、RPNは、前景と背景のインスタンスのバウンディングボックス予測のセットを、対応するオブジェクトネススコアとともに生成する。オブジェクトネス・スコアが高く、かつグランドトゥルースのオブジェクトと重ならないプロポーザルを、潜在的な未知のオブジェクトとしてラベル付けします。つまり、オブジェクトネス・スコアでソートされた上位k個の背景領域の提案を未知のオブジェクトとして選択するのです。この一見単純なヒューリスティックな手法は、5章で示すように良好な性能を発揮します。
潜在空間Fにおける特徴(f∈F)と、それに対応するラベルl∈Lが与えられた場合、エネルギー関数E(F, L)を学習することを求める。我々の定式化は、観測された変数Fと可能な出力変数Lのセットの間の互換性を推定する関数E(-)を、単一の出力スカラー、すなわちE(f) : R d → Rを用いて学習するEnergy based model (EBM) [27]に基づいている。 EBMの本質的な能力は、in-distributionデータに低いエネルギー値を割り当てたり、逆にサンプルが未知のクラスからのものであるかどうかを特徴づけるために、エネルギー指標を使用することになります。 具体的には、Helmholtzの自由エネルギーを用いて、Lのすべての値のエネルギーを組み合わせます。
(2)
ここでは,Lのすべての値のエネルギーを組み合わせ,Tは温度パラメータである.ソフトマックス層以降のネットワーク出力と、クラス固有のエネルギー値のギブス分布の間には、単純な関係が存在します[34]。これは次のように定式化できます。
(3)
ここで,p(l | f)はラベルlの確率密度,gl(f)は分類ヘッドg(.)のl番目の分類ロジットです.この対応関係を利用して、分類モデルの自由エネルギーをロジットの観点から以下のように定義します。
(4)
上記の式は、標準的なFaster R-CNN [54]の分類ヘッドをエネルギー関数に変換する自然な方法を提供します。対照的なクラスタリングによって潜在空間に明確な分離が行われているため、図3に示すように、既知のクラスのデータポイントと未知のデータポイントのエネルギーレベルに明確な分離が見られます。この傾向を考慮して、既知および未知のエネルギー値ξkn(f)およびξunk(f)のエネルギー分布を、シフトしたワイブル分布のセットでモデル化した。これらの分布は、ガンマ分布、指数分布、正規分布と比較して、少数の検証セット(既知と未知の両方のインスタンスを含む)のエネルギーデータに非常によく適合することがわかった。学習された分布は、ξkn(f) < ξunk(f) の場合、予測を未知のものとしてラベル付けするのに使用できる。
4.4. 忘却の軽減 未知のクラスを識別した後、オープンワールド検出器の重要な要件は、興味のある未知のクラスのいくつかのラベル付きの例が提供されている場合、新しいクラスを学習できることです。重要なのは、この段階では、以前のタスクの学習データは存在しないということです。新しいクラスのインスタンスのみでトレーニングを行うと、以前のクラスの壊滅的な忘却[40, 11]につながる。このような忘却を軽減するために、パラメータ正則化[2, 24, 29, 66]、模範解答の再生[6, 51, 37, 5]、動的拡大ネットワーク[39, 60, 56]、メタ学習[50, 25]など、様々なアプローチが開発されている。
我々は、例の再生の重要性を他のより複雑なソリューションと比較した[49, 26, 62]からの最近の洞察に基づいています。具体的には、Prabhuら[49]は、複雑な継続学習手法による進歩を振り返り、増分学習における再生のための欲張りな模範解答選択戦略が、最先端の手法を大差で一貫して凌駕することを示している。Knoblauchら[26]は、再生法の不当な力を理論的に正当化する方法を開発している。彼らは、最適な継続的学習者がNP困難問題を解き、無限のメモリを必要とすることを証明している。少数の例を保存して再生することの有効性は、Wangら[62]によって関連する数ショットの物体検出の設定で有効であることが判明している。これらのことから、忘却を軽減するためにOREに比較的単純な方法論を用いることにした。すなわち、バランスのとれた模範例のセットを保存し、これらの模範例に対する各増分ステップの後にモデルを微調整する。各時点で、各クラスの最低Nexのインスタンスが模範セットに存在することを確認します。
検証
5.1. オープンワールド評価プロトコル データの分割 クラスをタスクのセットT = {T1, - - Tt, - - - }にグループ化します。Ttを学習する間、{Tτ : τ<t}のすべてのクラスは既知、{Tτ : τ>t}は未知として扱われます。このプロトコルの具体的な実施例として、Pascal VOC[10]とMS-COCO[32]のクラスを検討する。すべてのVOCクラスとデータを第1タスクT1としてグループ化する。MS-COCO[32]の残りの60クラスは、意味的なずれを伴う3つの連続したタスクにグループ化される(Tab.1参照)。Pascal VOCとMS-COCOの学習セットから上記の分割に対応するすべての画像が学習データとなる。評価には、Pascal VOCテスト分割とMS-COCO val分割を使用します。各タスクの学習データから1k枚の画像を検証用に残しておきます。データ分割とコードはhttps://github.com/JosephKJ/OWODに掲載されています。
評価指標 未知の物体は既知の物体と混同されやすいため、この挙動を明示的に表すためにWilderness Impact (WI) メトリクス[8]を使用しています。 (5) ここで,PKは既知のクラスで評価したときのモデルの精度,PK∪Uは既知および未知のクラスで評価したときの精度で,リコールレベルR(すべての実験では0.8)で測定されます.未知のオブジェクトがテストセットに追加されても精度が低下しないように、WIはより小さいことが理想的です。WIの他に、A-OSE (Absolute Open-Set Error) [43]を用いて、既知のクラスのいずれかに誤って分類された未知のオブジェクトの数を報告しています。WIとA-OSEの両方とも、モデルが未知のオブジェクトをどれだけ効果的に扱えるかを暗黙的に測定している。新しいラベル付きクラスが存在する場合のモデルの漸進的な学習能力を定量化するために,IoU閾値0.5における平均平均平均精度(mAP)を測定する(既存の文献[61, 45]と一致).
5.2. 実装の詳細 OREは、標準的なFaster R-CNN [54]オブジェクト検出器をResNet-50 [20]バックボーンに再利用しています。インクリメンタル分類法[50, 25, 6, 37]に従い、分類ヘッド内のクラス数の変化に対応するために、予想されるクラスの最大数の制限を仮定し、興味のあるクラスのみを考慮に入れるように損失を修正します。これは、見たことのないクラスの分類ロジットを大きな負の値(v)に設定することで、ソフトマックスへの貢献度を無視できるものにします(e -v → 0)。
RoI Headの最後の残余ブロックから得られる2048次元の特徴ベクトルは、対照的なクラスタリングに使用されます。コントラスト損失(式1で定義)は、標準的なFaster R-CNNの分類損失と局在化損失に追加され、共同で最適化されます。タスクTiの学習時には、Tiの一部であるクラスのみがラベル付けされます。Tiをテストしている間は、以前に導入された全てのクラスがTiのクラスと共にラベル付けされ、将来のタスクの全てのクラスは「未知」とラベル付けされる。模範解答の再生では,経験的に Nex = 50 を選択した.模範解答メモリのサイズに関する感度分析は、項6で行います。また、実装の詳細については補足を参照してください。
5.3. オープンワールドでの物体検出結果 表2は、提案されているオープンワールド評価プロトコルにおいて、OREがFaster RCNNと比較した結果を示している。オラクル」検出器は、既知のラベルと未知のラベルのすべてにいつでもアクセスでき、リファレンスの役割を果たします。各タスクを学習した後、WIとA-OSEメトリクスを用いて、未知のインスタンスが既知のクラスとどのように混同されるかを定量化します。OREは、未知のものを明示的にモデル化しているため、WIとAOSEのスコアが著しく低いことがわかります。タスク2で未知のクラスを徐々にラベル付けしていくと,ベースライン検出器の既知のクラスセットに対する性能(mAPで定量化)は56.16%から4.076%へと大幅に低下することがわかります.提案されたバランスのとれた微調整は、WIとA-OSEの増加を犠牲にして、以前のクラスの性能を適切なレベル(51.09%)に回復させることができました。一方、OREは既知のクラスの検出と未知の包括的な効果の両方を達成することができました。タスク3のクラスを追加した場合も同様の傾向が見られます。タスク4では、未知の真相がないため、WIとA-OSEのスコアは測定できません。定性的な結果を図4と補足セクションで報告し、失敗事例の分析も行います。また、第6章と補足章では、広範な感度分析を行います。
5.4. インクリメンタルな物体検出結果 OREが未知の物体を明確にモデル化できることから、興味深い結果が得られました。それは、物体の増分検出(Incremental Object Detection: iOD)タスクにおいて、最新鋭の技術と比較して良好な結果が得られたことです(Tab.3)。これは ORE が、未知のオブジェクトが既知のオブジェクトに分類されることによる混乱を軽減し、検出器が真の前景オブジェクトを段階的に学習することを可能にするからです。OREの評価には、iOD分野で使用されている標準的なプロトコル[61, 45]を使用しています。ここでは、Pascal VOC 2007 [10]のクラス群(10、5、最後のクラス)が、残りのクラス群で学習された検出器によって、段階的に学習されます。ここでは、Pascal VOC 2007 [10]のクラス群(10、5、最後のクラス)を、残りのクラス群で学習した検出器で段階的に学習します。Contrastive Clustering(CC)とEnergy Based Unknown Identification(EBUI)を廃止したところ、標準的なOREよりも性能が低下することがわかりました。
6.1 OREコンポーネントのアブレーション。 OREの各コンポーネントの貢献度を調べるために、慎重にアブレーション実験を行います(Tab.4)。ここでは、タスク1がモデルに導入される設定を考えます。自動ラベリング手法(ALUと呼ぶ)とエネルギーベースの未知識別(EBUI)を組み合わせた場合、どちらか一方を個別に使用する場合(3行目と4行目)よりも、一緒に使用した場合(5行目)の方が良い結果となりました。この構成にコントラスト・クラスタリング(CC)を追加すると、WIとA-OSEの観点から評価して、未知数の処理で最高の性能が得られます(7行目)。未知の識別の副作用として、既知のクラスの検出(mAPメトリック)に深刻な性能低下はありません。6行目では、EBUIが重要なコンポーネントであり、存在しないとWIとA-OSEのスコアが上昇することがわかります。このように、OREの各コンポーネントは、未知の識別のために重要な役割を担っています。
6.2 模範的なメモリサイズに関する感度分析。 バランス微調整戦略では、クラスごとに少なくともNex個のインスタンスを持つ模範画像を保存する必要があります。タスク2の学習時にNexを変化させ、その結果を表5に示します。バランス・ファインチューニングは、1クラスあたり最低10個のインスタンスを持っているだけでも、以前に知られていたクラスの精度を向上させるのに非常に効果的であることがわかりました。しかし、Nexを大きくしても効果はなく、同時に未知のものの扱いにも悪影響を与えることがわかりました(WIとA-OSEスコアから明らか)。これは、既知のクラスと未知のクラスでのパフォーマンスのバランスがとれるスイートスポットです。
6.3 オープンセット検出器との比較。 クローズドセットデータ(Pascal VOC 2007で学習・テスト)とオープンセットデータ(MS-COCOから同数の未知の画像を含むテストセット)で評価したときの検出器のmAP値は、検出器が未知のインスタンスをどのように処理するかを測定するのに役立ちます。理想的には、性能の低下があってはならない。OREをMillerら[43]によって提案された最近のオープンセット検出器と比較します。表6によると ORE は、未知のインスタンスを効果的にモデル化しているため、性能低下は [43] よりもはるかに小さいことがわかります。
6.4 クラスタリング損失とt-SNE[38]の可視化 タスク1の対照的なクラスタリング損失(式1)を用いた学習中に形成されたクラスタの品質を可視化します。図5(a)では、きれいに形成されたクラスターを見ることができます。凡例の各数字は、タスク1で導入された20個のクラスに対応しています。ラベル20は未知のクラスを示しています。重要なのは、未知のインスタンスもクラスタリングされていることで、これはコントラスト・クラスタリングで使用される自動ラベル付けされた未知のインスタンスの品質を強化しています。図5(b)は、コントラスト・クラスタリングの損失をトレーニングの反復回数に対してプロットしたもので、徐々に減少しており、収束が良好であることを示しています。
新規性
Open World Object Detection」という新しい問題設定を導入し、実世界をより詳細にモデル化します。
オープンワールド検出の課題を解決するために、コントラストクラスタリング、未知を考慮した提案ネットワーク、エネルギーに基づく未知の識別に基づいて、「ORE」と呼ばれる新しい手法を開発する。
本研究では、物体検出器のオープンワールド特性を測定するための包括的な実験設定を導入し、競合するベースライン手法と比較して、その上で ORE をベンチマークします。
興味深い副産物として、提案手法は、インクリメンタルオブジェクト検出のために設計されたものではないにもかかわらず、インクリメンタルオブジェクト検出において最先端の性能を達成しています。
議論,展望
Comment
date