Towards Reducing Labeling Cost in Deep Object Detection

1 はじめに

ディープオブジェクト検出ネットワーク[16, 19]の性能は，ラベル付きデータセットのサイズに大きく依存する．ラベル付けされたデータを増やすことは有効だが，データを増やすことはコストがかかる．これを受けて，研究者たちは，ラベリングのためにデータセットの中で最も情報量の多いサンプルを選択するためのスマートな戦略を研究してきた．

サンプルの選択は、獲得関数の定義に基づいて行われる。獲得関数は、通常、ネットワークの不確実性を用いて計算され、それにより、ネットワークが予測に関して最も自信のないサンプルをラベル付けのために選択する。しかし、この手法には2つの問題がある。獲得関数が意味を持つのは、ネットワークがすでにタスクに対して十分に訓練されている場合のみであり、ALの初期サイクルでは必ずしもそうとは限らない。また、ネットワークがほとんどのクラスで良い性能を発揮したとしても、データセット内でそのクラスが十分に表現されていなかったり、クラス内分散のために、特定のクラスでの精度が低い場合がある。このような場合、ネットワークの予測値を用いてALの獲得関数を計算すると、ランダムサンプリングを用いた場合よりも悪い性能になることが多い。

さらに、最も不確実なサンプルのみを対象とすることで、獲得データセットには、容易な（情報のない）サンプル、つまりネットワークが確実なサンプルが含まれないため、テストセットと比べて分布が大きく異なる可能性がある。バランスのとれたデータセットを作るためには，イージーサンプルを含める必要があります．しかし、単純に標準的なALサイクルにそれらを含めることは、ネットワークが確かなサンプルにラベルを付けることになるため、資源の無駄遣いとなる。

本研究では、上述の問題に対処するための能動学習フレームワークを提案する。我々のフレームワークには2つの重要な要素がある：ハードサンプルに対するロバストネスベースの獲得関数とイージーサンプルに対する疑似ラベリングスキームである。

獲得関数は、ネットワークのロバスト性に基づいており、一貫性損失を用いているため、クラスに依存せず、結果としてネットワークが正確でないクラスのオブジェクトに対しても信頼性がある。具体的には，画像とその画像を水平方向に反転させるなどして拡張したものをネットワークに与え，一貫性のある予測値を出力するようにネットワークを学習させる[9]．そして，元の画像とその拡張版の予測値の差を，その正しさを無視して計算します． ALの際には，獲得関数と同じ一貫性損失を用いる．経験的には，この方法が従来のALアプローチの欠点に悩まされないことを示している．

この取得関数は、最も情報量の多い（ハード）サンプルに偏っているため、結果として得られるデータセットは、テスト時の実際の分布を表さなくなってしまう。そこで、ラベリングのコストを増やすことなく、データセットの分布の偏りを補うために、イージーサンプルを組み込むために、疑似ラベリングスキームを提案する。つまり、能動学習サイクルごとに、以前に学習したネットワークを用いてイージーサンプル、つまりネットワークが予測に自信を持っているサンプルをマイニングし、ネットワーク自身の予測を疑似ラベルとして使用するのである。これらのラベルは、次のALサイクルでのネットワークの学習に使用されます。これは自動ラベル付けプロセスであるため、余分なラベル付けコストはかからず、ラベル付け予算をすべてハードサンプルに費やすことができます。

要約すると、我々の貢献は以下の通りである。

新規の一貫性スコアを用いて、ネットワークのロバスト性に基づいたクラスを問わない能動学習スコアを提案する。
情報量の少ないサンプルを活用するために、疑似ラベリングモジュールを追加し、人間のアノテーションコストを増やすことなく、ラベリングされたデータセットを拡大する。
公開されている2つのデータセットを用いて、本手法の利点を実証する。PASCAL VOC07+12およびMS-COCOの2つの公開データセットで、本手法の利点を実証した。最先端の能動学習手法[21, 26]と比較して，本手法はPASCAL-VOCとMS-COCOにおいて，それぞれ7.7%と7%の相対的なmAPの改善をもたらした．重要なのは，ベースラインと同じ性能を達成しながら，ラベリングコストを最大で82%削減できることである．

e4exp / paper_manager_abstract

Towards Reducing Labeling Cost in Deep Object Detection #561

1 はじめに