e4exp / paper_manager_abstract

0 stars 0 forks source link

End-to-End Semi-Supervised Object Detection with Soft Teacher #633

Open e4exp opened 2 years ago

e4exp commented 2 years ago

本論文では、これまでの複雑なマルチステージ手法とは対照的に、エンド・ツー・エンドの半教師付きオブジェクト検出アプローチを紹介する。 エンド・ツー・エンドの学習により、カリキュラム中に疑似ラベルの品質が徐々に向上し、より正確な疑似ラベルが得られることで、物体検出の学習に役立つ。 また、このフレームワークの中で、シンプルかつ効果的な2つの手法を提案しています。 それは、ラベルのないバウンディングボックスの分類損失を、教師ネットワークが生成した分類スコアで重み付けするソフト教師メカニズムと、ボックス回帰の学習のために信頼できる擬似ボックスを選択するボックスジッタリングアプローチです。 COCOベンチマークにおいて、提案手法は、1%、5%、10%という様々なラベル付け比率の下で、従来手法を大差で上回る結果を得た。 さらに,提案手法は,ラベル付けされたデータ量が比較的多い場合にも優れた性能を発揮することがわかった. 例えば,COCOの全学習セットを用いて学習したベースライン検出器の40.9 mAPを,COCOの123Kのラベルなし画像を活用することで,+3.6 mAP改善し,44.5 mAPを達成した. Swin Transformerを用いた最先端のオブジェクト検出器(test-devでは58.9mAP)では、検出精度を+1.5mAP向上させて60.4mAPに達し、インスタンス分割精度を+1.2mAP向上させて52.4mAPに達した。 さらに、Object365の学習済みモデルを組み込むことで、検出精度は61.3mAP、インスタンス分割精度は53.0mAPとなり、新たな最先端技術を獲得することができました。

https://github.com/microsoft/SoftTeacher

e4exp commented 2 years ago

image

1. はじめに

データは重要です。 実際、ImageNetのような大規模なデータは、コンピュータビジョンにおける深層学習のブームの大きなきっかけとなりました。 しかし、ラベルの取得は、時間とコストのかかるアノテーション作業がボトルネックとなっています。 そのため、自己教師付き学習や半教師付き学習のように、ラベルのないデータを深層ニューラルモデルの学習に活用する学習法が奨励されている。

本論文では、半教師付き学習の問題、特に物体検出について研究しています。 半教師付き物体検出では、現在の最新技術である擬似ラベルベースのアプローチを対象とする。 これらのアプローチ[27, 36]は、多段階の学習スキーマを用いており、最初の段階ではラベル付きデータを用いて初期検出器を学習し、続いてラベル無しデータに対する擬似ラベル付けプロセスを行い、擬似ラベル付けされた注釈無しデータに基づいて再学習する。 このような多段階アプローチは、それなりの精度を達成するが、最終的な性能は、少量のラベル付きデータを用いて訓練された初期の、おそらく不正確な検出器によって生成された疑似ラベルの品質によって制限される。

この問題を解決するために、我々はエンド・ツー・エンドの疑似ラベルベースの半教師付き物体検出フレームワークを提案する。 このフレームワークは、ラベルのない画像に対して疑似ラベル付けを同時に行い、各反復において、これらの疑似ラベルと少数のラベル付きデータを用いて検出器を訓練する。 具体的には、ラベル付けされた画像とラベル付けされていない画像を、あらかじめ設定された比率でランダムにサンプリングし、1つのデータバッチを形成します。 これらの画像に対して2つのモデルを適用し、1つは検出の学習を行い、もう1つはラベルのない画像の擬似ラベルの付与を行う。 前者は学生、後者は教師とも呼ばれ、学生モデルの指数移動平均(EMA)となります。 このエンド・ツー・エンドのアプローチにより、複雑な多段階の学習スキームを回避することができます。 さらに、疑似ラベリングと検出トレーニングのプロセスが相互に補強し合うことで、トレーニングを重ねるごとに両者がより良くなっていくという「フライホイール効果」も得られます。

このエンド・ツー・エンドのフレームワークのもう一つの重要な利点は、従来のアプローチ[27, 36]のように、「難しいカテゴリラベルを付けて生成された擬似ボックス」を提供するだけではなく、教師モデルをより活用して生徒モデルのトレーニングを導くことができるということです。 この洞察を実現するために,ソフト・ティーチャー・アプローチを提案する. このアプローチでは,教師モデルは,生徒が生成したボックス候補にカテゴリラベルと回帰ベクトルを割り当てるための「擬似ボックス」を提供するのではなく,生徒モデルが生成したすべてのボックス候補を直接評価するために使用される. これらのボックス候補を直接評価することで,より広範な監督情報を学生モデルの学習に使用することができる. 具体的には,まず,[27]と同様に,正の疑似ラベルの精度を高くするために,高い前景閾値を用いて,ボックス候補を検出スコアによって前景/後景に分類する. しかし,この高い前景閾値では,多くの正のボックス候補が誤って背景として割り当てられてしまう. この問題を解決するために,我々は信頼性指標を用いて,各「背景」ボックス候補の損失を重み付けすることを提案する. 経験的に,教師モデルによって生成された単純な検出スコアが信頼性指標としてうまく機能することがわかり,本アプローチではこれを使用した. この手法は,これまでのハードな前景・背景割り当て手法よりも有意に優れていることがわかり(表3および表4参照),これを「ソフト・ティーチャー」と名付けました.

この洞察を具体化するもう一つのアプローチは、生徒の定位ブランチのトレーニングのために、ボックス・ジッタリング・アプローチによって、信頼できるバウンディング・ボックスを選択することである。 このアプローチでは、まず擬似的な前景ボックス候補を数回ジッターします。 次に、これらのジッターされたボックスを教師モデルの位置ブランチに従って回帰させ、これらの回帰されたボックスの分散を信頼性の尺度として使用する。 信頼性が十分に高いボックス候補は、生徒の定位ブランチのトレーニングに使用されます。 MS-COCO物体検出ベンチマーク[16]において,我々のアプローチは,ResNet-50[8]とFPN[14]を用いたFaster R-CNN[22]フレームワークを用いて,1%, 5%, 10%のラベル付きデータを用いたval2017において,20.5 mAP, 30.7 mAP, 34.0 mAPを達成し,従来の最良手法であるSTAC[27]をそれぞれ+6.5, +6.4, +5.4 mAP上回った. さらに,物体検出器の学習に必要な十分な量のラベル付きデータがある場合には,よりチャレンジングな環境で評価を行いました. 具体的には,ラベル付きデータとしてCOCO train2017の全セットを採用し,ラベルなしデータとしてunlabeled2017のセットを採用しています。 この設定では、ResNet-50とResNet101をバックボーンとするFaster R-CNNアプローチの教師ありベースラインを、それぞれ+3.6mAPと+3.0mAP改善しています。 さらに,COCO test-dev2017において,オブジェクト検出で58.9 mAP,インスタンスセグメンテーションで51.2 mAPを達成した最先端のSwin-Transformer [18]ベースの検出器においても,提案手法は精度をそれぞれ+1.5 mAP,+1.2 mAP向上させ,60.4 mAP,52.4 mAPを達成した. さらに,Object365[24]の学習済みモデルを組み込むことで,検出精度は61.3mAP,インスタンス分割精度は53.0mAPに達し,このベンチマークでの新たな最先端技術となった.

e4exp commented 2 years ago

image

3. 方法論

図. 2は、我々のエンド・ツー・エンドのトレーニングフレームワークの概要を示しています。 生徒モデルと教師モデルの2つのモデルがあります。 生徒モデルは、ラベル付き画像での検出損失と、疑似ボックスを用いたラベルなし画像での検出損失の両方によって学習されます。 ラベルなし画像には2つの疑似ボックスのセットがあり、それぞれ分類枝と回帰枝の学習に使用されます。 教師モデルは、生徒モデルの指数移動平均(EMA)です。 このエンド・ツー・エンドのフレームワークでは、ソフト・ティーチャーとボックス・ジッタリングという2つの重要な設計があります。

3.1. エンド・ツー・エンドの疑似ラベリングフレームワーク

まず、疑似ラベルベースの半教師付き物体検出のエンド・ツー・エンドのフレームワークを紹介します。 我々のアプローチは、教師と生徒のトレーニングスキームに従っている。 各学習反復において、ラベル付き画像とラベル無し画像は、データサンプリング比srに従ってランダムにサンプリングされ、学習データバッチを形成する。 教師モデルは、ラベルのない画像上で擬似ボックスを生成するために実行され、学生モデルは、グランドトゥルースとしてのラベル付き画像と、擬似ボックスを持つラベルのない画像の両方で学習される。 したがって,全体の損失は,教師ありの損失と教師なしの損失の加重和として定義される

image

ここで,LsとLuは,それぞれラベル付き画像の教師あり損失とラベルなし画像の教師なし損失を表し,αは教師なし損失の寄与度を制御する. 両者とも,学習データのバッチに含まれる画像の数で正規化されています。

image

ここで,I i lはi番目のラベル付き画像,I i uはi番目のラベルなし画像,Lclsは分類損失,Lregは箱型回帰損失,NlとNuはそれぞれラベル付き画像とラベルなし画像の数を示す.

学習開始時には,教師モデルと生徒モデルの両方がランダムに初期化されます. 学習が進むにつれ,教師モデルは生徒モデルによって継続的に更新され,教師モデルは指数移動平均(EMA)戦略によって更新されるという一般的な慣行[29, 26]に従っている. 画像分類では単純な確率分布を擬似ラベルとしているのに対し、物体検出では、画像には複数の物体が含まれており、物体のアノテーションは位置とカテゴリで構成されているため、擬似ラベルの作成はより複雑である。 ラベリングされていない画像が与えられた場合、教師モデルを使ってオブジェクトを検出し、何千ものボックス候補を予測します。 次に,非最大値抑圧(NMS)を行い,冗長性を排除する. ほとんどの冗長なボックスは除去されますが、まだ非前景の候補が残っています。 そこで,前景スコア1が閾値以上の候補のみを擬似ボックスとして保持する. 高品質な疑似ボックスを生成し,学生モデルの学習を容易にするために,半教師付き画像分類タスクの最新の進歩であるFixMatch[26]を利用する. 生徒モデルの検出学習には強い補強を、教師モデルの疑似ラベリングには弱い補強を用いる。 理論的には、我々のフレームワークは、シングルステージのオブジェクト検出器[15, 17, 21, 30]やツーステージのオブジェクト検出器[22, 9, 5, 35, 34]など、主流のオブジェクト検出器に適用可能である。 以前の手法と公平に比較できるように、我々の手法を説明するために、デフォルトの検出フレームワークとしてFaster R-CNN [22]を使用している。

3.2. Soft Teacher

検出器の性能は、疑似ラベルの品質に依存します。 実際には,前景スコアに高い閾値を用いて,生徒が生成した信頼度の低いボックス候補のほとんどをフィルタリングすることで,低い閾値を用いるよりも良い結果が得られることがわかった. 表9に示すように 9に示すように,しきい値を0.9に設定したときに最も良い結果が得られました. しかし,厳しい基準(高い閾値)では,前景精度が高くなる一方で,保持されたボックス候補のリコールもすぐに落ちてしまいます. 図3(a)に示すように、前景の閾値を0.9に設定した場合、精度は89%に達するものの、リコールは33%と低くなっています。 この場合、一般的な物体検出フレームワークのように、生徒が生成したボックス候補と教師が生成した擬似ボックスの間のIoUを用いて前景と背景のラベルを割り当てると、前景のボックス候補の一部が誤ってネガティブに割り当てられてしまい、学習の妨げとなり、性能が低下する可能性があります。 この問題を解決するために,エンド・ツー・エンドのフレームワークの柔軟性を利用して,教師モデルからの豊富な情報を活用するソフト教師アプローチを提案する. 具体的には,生徒が生成したボックスの候補が実際の背景であるかどうかの信頼性を評価し,その信頼性を背景分類の損失の重み付けに利用します. 2つのボックスセット{b fg i }と{b b bg i }が与えられ、{b fg i }が前景として割り当てられたボックスを示し、{b bg i }が背景として割り当てられたボックスを示している場合、信頼性のある重み付けをしたラベルのない画像の分類損失は次のように定義されます。

image

image

ここで,Gclsは分類に用いる(教師が生成した)擬似ボックスの集合,lclsはボックスの分類損失,rjはj番目の背景ボックス候補の信頼性スコア,N fg bとN bg bはそれぞれボックス集合{b fg i }と{b bg i }のボックス候補の数である.

信頼性スコアrを推定することは困難です。 我々は経験的に,教師モデルが弱い拡張画像を用いて生成した背景スコアが,rの代理指標としてよく機能し,我々のエンド・ツー・エンドの学習フレームワークで容易に得られることを発見した. 具体的には、生徒が生成したボックス候補が与えられた場合、その背景スコアは、教師(BG-T)を使ってボックスを検出ヘッドで処理するだけで得られます。 このアプローチは、OHEM[25]やFocal Loss[15]などの広く使われているハードネガティブマイニングアプローチとは異なり、より「シンプルな」ネガティブマイニングに近いものであることは注目に値します。 比較のために、他のいくつかの指標も調べています。

image ここで、p bg Sとp bg Tは、それぞれ生徒モデルと教師モデルの背景クラスの予測確率です。

3.3. ボックスのジッター化

image

図3(b)に示すように 、ボックス候補の定位精度と前景スコアは強い正の相関を示しておらず、前景スコアが高いボックスは正確な定位情報を提供していない可能性があることがわかる。 これは、前景スコアに応じたティーチ生成擬似ボックスの選択がボックス回帰に適していないことを示しており、より良い基準が必要である。 本研究では、回帰予測の一貫性を測定することで、擬似ボックス候補のローカライズ信頼性を推定する直感的なアプローチを紹介する。 具体的には、教師が生成した擬似ボックス候補biが与えられた場合、biの周りのジッターボックスをサンプリングし、そのジッターボックスを教師モデルに投入することで、次のように定式化される洗練されたボックスˆbiを得る。

image

以上の手順を数回繰り返し、Njitter精製されたジッターボックス{ ˆbi,j}の集合を集め、定位信頼度をボックス回帰分散として定義する

image

image

ここで、σkは洗練されたジッターボックスセット{ ˆbi,j}のk番目の座標の標準的な導出、σˆkは正規化されたσk、h(bi)とw(bi)はそれぞれボックス候補biの高さと幅を表す。 ボックス回帰分散が小さいほど、ローカリゼーションの信頼性が高いことを示しています。 しかし、すべての擬似ボックス候補のボックス回帰分散を計算することは、トレーニング中には耐えられない そこで、実際には、前景スコアが0.5より大きいボックスについてのみ信頼性を計算する。 このようにして、推定しなければならないボックスの数は、1画像あたり平均数百個から17個程度に減り、その結果、計算コストはほとんど無視できる程度になります。 図. 3 (c) では、ローカライズ精度とボックス回帰分散の相関関係を示しています。 前景スコアと比較して、ボックス回帰分散は、より良いローカライズ精度を測定することができます。 このため、ボックス回帰分散が閾値よりも小さいボックス候補を擬似ラベルとして選択し、ラベルのない画像に対してボックス回帰ブランチを学習させることにしました。 このようにして、ラベルなしのデータでボックス回帰を学習するための疑似ボックスGregが与えられた場合、回帰損失は次のように定式化される。

image

ここで、b fg iはi番目に前景として割り当てられたボックス、N fg bは前景ボックスの総数、lregはボックス回帰損失である。 したがって、式(4)と式(5)を代入すると 4と式 10を式3に代入すると 3に代入すると、ラベルなし画像の損失は

image

ここでは、分類とボックス回帰で使用される擬似ボックスが我々のアプローチでは異なるという事実を強調するために、擬似ボックスGclsとGregを損失の入力として使用しています。