e4exp / paper_manager_abstract

0 stars 0 forks source link

Data-free Knowledge Distillation for Object Detection #679

Open e4exp opened 3 years ago

e4exp commented 3 years ago

我々は、物体検出タスクで訓練されたニューラルネットワークのために、データフリーの知識蒸留を可能にするDeepInversion for Object Detection (DIODE)を発表する。 DIODEは、データフリーの観点から、既製の学習済み検出ネットワークのみが与えられた場合に、事前のドメイン知識、生成ネットワーク、事前に計算された活性化がなくても、画像を合成します。 DIODEは、2つの重要なコンポーネントに依存しています。 1つ目は、画像の忠実度と蒸留の効果を向上させるための、広範囲にわたる微分可能なaugmentationです。 第二に、画像合成のための新しい自動バウンディングボックスおよびカテゴリーサンプリングスキームにより、多様な空間およびカテゴリーオブジェクトを含む多数の画像を生成することができます。 このようにして得られた画像を用いて、教師から生徒へ、データなしで知識を抽出することができる。 広範な実験により、DIODEが元の学習分布と一貫して一致する能力を持つことで、元のドメイン知識がないためにデータのない設定で不可避的に発生する分布外のプロキシデータセットよりも、より効果的な知識の蓄積が可能になることを実証した。

e4exp commented 3 years ago

image

1. はじめに

物体検出は,コンピュータビジョンの基本的な問題であり,あらかじめ定義されたクラスの集合から,画像内の物体のインスタンスを正確に特定することを目的としています. 畳み込みニューラルネットワークの進歩[18, 39, 13]と,大規模かつ多様なデータセットの利用可能性[36, 20]が相まって,物体検出器の精度は着実に向上しています. しかし,精度向上のためには,モデルの複雑さ,計算量,待ち時間の増加が避けられません. 性能を犠牲にすることなく複雑さを軽減する方法の1つに,知識の蒸留(KD)があります[14]. 知識の蒸留により,教師ネットワークと呼ばれる1つ以上の大きな事前学習モデルから,学生ネットワークと呼ばれるコンパクトなモデルを学習することができます. 知識蒸留は,クラス間の情報やオブジェクトの位置情報を豊富に含む教師の予測を用いて生徒を導くことで達成される. 蒸留された学生は、教師のオリジナルのトレーニングデータにアクセスできる場合に、最高の精度を得ることができます。 しかし,このようなデータは,サイズが大きいために利用できない場合や,公開するとプライバシーや安全性に問題が生じる場合がある.データがない場合に、ニューラルネットワークからデータを合成するアプローチとして、DeepInversion [44]が最近登場しました。 生成的なアプローチとは異なり、DeepInversionは、データ分布に適合する画像を合成するための生成器や敵対的なトレーニングを必要としません。 DeepInversionは、データ分布に適合する画像を生成するために、生成器や敵対的な学習を必要とせず、ネットワークのバッチ・ノーマライゼーション(BN)層に格納されている統計量と、深い特徴分布の統計量を一致させることで、ノイズから始まる画像のバッチを最適化します。 これにより、学習データセットと同様の視覚的特徴を持つ画像を生成することができます。 しかし、DeepInversionは、深層分類ネットワークからのみ画像を合成することに限定されている。

本論文では、データフリーで深層物体検出ネットワークの知識抽出を行う手法を提案する。 この手法は、 a) DIODEと呼ばれるモデル反転プロセスを用いて、事前に学習されたモデルから画像を合成するステップと、 b) 合成された画像に対して物体検出タスクに特化した知識抽出を行うステップの2つからなる。

最初のステップとして、DeepInversionを改良したDIODEを開発しました。 これにより、既製の学習済みオブジェクト検出器から、ローカライズされたオブジェクトやカテゴリー条件付きのオブジェクトを含む高品質な画像を合成することができます。 DeepInversion [44]とDIODEの主な違いは、分類損失をオブジェクト検出損失に置き換えたこと、広範なデータ補強戦略のセット、多数の画像の生成を可能にするボックスサンプリング手法です。 また、タイリング戦略と偽陽性集約戦略を導入し、生成された画像中のオブジェクトの密度を拡大しています。 その結果、予測可能なすべてのカテゴリーのオブジェクトを、さまざまな場所、さまざまなスケールで含む画像の新しいデータセットを合成することができました。

第2段階では、合成された画像の大規模なデータセットを用いて、モデル間の知識の蒸留を行う。 この目的のために、我々は物体検出のためのデータ不要の知識抽出法を定式化した。 この定式化により、プロキシデータセットからの画像にアクセスするだけで、ラベルを必要とせずに、既製の検出器から別の検出器へと知識を抽出することができる。 これは、我々の知る限り、物体検出ネットワークに特化したデータフリーの知識抽出を行った唯一の研究である。 広範な実験を通して、DIODEは、反転した画像の品質と汎用性を向上させ、モデルの学習データ分布を効果的に捉えることができることを示しました。 また、これらの画像は、同一ドメインのデータセットと同等の蒸留効果をもたらし、アウトオブドメインのデータセットを常に大差で上回っています。 DIODEは、従来のプロキシデータセットでは、事前のドメイン知識がないために発生するドメインギャップによって性能が低下する可能性があったが、蒸留のための事前のドメイン知識を必要としない。

要約すると、本稿の貢献は2つあります。まず、物体検出のための深層反転アルゴリズムであるDIODEを提案します。 このアプローチには、バウンディングボックスとそのカテゴリーラベルを生成する新しい手法と、画質と汎用性を向上させるための差分データ補強が含まれています。 また、オブジェクトの密度を高めるために、タイリングと偽陽性の集約技術を開発しました。 次に、既製の学習済み物体検出器のデータセットにアクセスすることなく、その知識を学生ネットワークに転送する方法を示します。 広範な実験により、我々が生成したデータセットは、蒸留というタスクにおいて、ドメイン外のプロキシデータセット(0.450 mAP)を大幅にマージン改善して上回った。

本論文の残りの部分は以下のように構成されている。 まず、セクション2で関連する作品を要約する。 次に,セクション3では,物体検出のために画像を反転させる我々のアプローチについて説明する. セクション4では、事前に訓練された教師検出器の知識を学生ネットワークに蒸留するための、我々のデータ不要の模倣学習アプローチを紹介する。 最後に,セクション5では,我々の実験セットアップを紹介し,結果について議論する.

e4exp commented 3 years ago

2 related work

また、事前に学習したモデルを反転させて画像を生成する手法もあります。 DeepDream [26, 8, 23, 38] は、勾配を入力に逆伝播させ、ターゲットクラスの特徴を生成します。 全変動のような画像事前正則化により、DeepDreamは滑らかでカテゴリ固有の画像をノイズート画像として生成することができます。 同様に,DeepInversion [44]は,BN情報に基づく特徴マップ正則化を導入し,ImageNetで学習したディープネットワークのための高忠実度画像の合成を可能にする. これらの手法はいずれも、分類タスクに対してのみ機能する。

データフリーのKD。

前述の手法は、データフリーの知識抽出に向けた最近の新しいトレンドに影響を与えている。 Bhardwajら[2]は、DeepDreamを使用して、元のデータの10%から活性化ベクトルを抽出し、画像を生成しています。 Lopesら[22]は、model inversion attack[10]の変形を用いて、元のデータセットのレスポンスと事前に計算された活性化統計の類似性を最大化し、プロキシデータセットを生成しています。 Nguyenら[28]は,事前に学習させたGANジェネレータを,モデル反転攻撃を行うための事前情報として使用している. また、Chenら[5]やMicaelli and Storkey[25]は、分類ネットワークを識別器として再定式化し、識別器の応答を最大化する画像を合成するために外部の生成ネットワークを学習する。 これらの既存の手法はすべて、メタデータ、事前に計算された活性化、またはGANジェネレータのいずれかを使用して、プロキシデータセットを構築する。 対照的に、最近の研究では、元のデータセットの事前知識なしに知識の蒸留を検討し始めている。 Nayakら[27]は、ソフトマックス層からのクラス間情報をモデル化するだけで、プロキシデータセットを生成している。 Yinらは、データのないKDのプロキシデータセットを生成するために、DeepInversion[44]とadaptive DeepInversionを紹介していますが、後者には教師と生徒の意見の相違を促す競争正則化項が追加されています。 前述の手法はすべて、分類タスクに対してのみ機能する。

e4exp commented 3 years ago

3. DIODE: DeepInversion for Object Detection

このセクションでは、DeepInversion for Object DEtection (DIODE) を紹介します。 これは、深層物体検出器の学習に使用される分布に類似した合成データを生成する新しい画像合成法です。 この手法は、事前に学習されたモデルのみを必要とし、補助的な情報(メタデータ、特徴の活性化など)や追加のネットワーク(事前に学習された生成ネットワークなど)に依存しません。 N個の入力画像xinv∈R N×3×H×Wと、事前に学習された検出ネットワークΦ(x)が与えられた場合、DIODEを、ランダムなノイズx_{i,c,u,v} ∼N (0, 1)で初期化された全てのピクセルから開始し、最適化する正則化された最小化問題として定式化します。

image

ここで,RDI は,検出器の学習中に提示された画像の分布に向かって,敵対的な例から遠ざけるために追加された正則化項であり,L_{detect} は,事前に学習された検出器の予測値と望ましいターゲット Y∈R K×6 との間の損失関数である. この損失関数は、物体検出器の学習に使用されたものと同じで、xinvにカテゴリと位置を条件とした物体を合成する役割を担っています。 これは通常,ボックスカテゴリ損失L_category,ボックスディメンション損失L_box,グリッドロケーション損失L_confを組み合わせることで実現される. Lconf、Lbox、Lcategory の定式化は、検出器のアーキテクチャによって異なります。 一般的には,Lconf にはバイナリークロスエントロピー,Lcategory にはクロスエントロピー,Lbox には L1 または Generalized IoU (GoI) [34] が用いられます. ターゲットYはK個のボックスで構成され、k個のボックスはバッチインデックス(Yk,1)、C個のカテゴリーのうちのバウンディングボックスカテゴリー(Yk,2)、バウンディングボックス座標(Yk,3:6) x,y,w,hの6つのパラメータで定義される。

画像の忠実度を管理するために、正則化器RDIを使用する。 RDIは2つの部分から構成されています: DeepDream[23]のように画像の事前情報に作用する事前項Rpriorと、DeepInversion[44]のように特徴マップの分布を正則化するBN正則化項RBNです。

image

ここで、Rpriorは、入力のトータルバリエーション、RT V 、L2ノルムをチェックします。

image

トータルバリエーションは、隣接するピクセルのL1距離を最小にすることで、同じ強度になるように促します。

image

これにより,合成画像は自然画像が「滑らか」であるという事実に適合するようになり,自然画像の事前処理として効果的に機能し,忠実度が向上することが広く知られている[23, 26, 44]. 第2項の ||x||_2^2 は、最適化プロセス中に生成された画像が飽和するのを防ぎます。 DeepInversion [44]と同様に、DIODEは正則化RBNを利用して、検出器のBN層にキャッシュされているトレーニングデータの平均特徴統計量を利用しています。 これにより、合成データのネットワーク埋め込みの低レベルから高レベルまでの有効な特徴分布を押し出すことができます。 この目的のため、RBNは、現在のバッチのチャネルごとの平均値μl(x)と分散σ2 l(x)を、BN層に格納されている統計値μ BN l /σ2 BN l (l = 1...L、LはBN層の総数)と照合する。

image

事前項RpriorとBN正則化RBNの組み合わせは、生成された画像を教師の学習分布に近づける。 重みαBN,αT V,αl2は,それぞれの相対的な重要性を制御する.

3.1. バウンディングボックスサンプリング

本節では、画像生成に必要なターゲットYを自動的にサンプリングするバウンディングボックスサンプリング戦略を提案する。 これらのターゲットは手動で提供される可能性があるが、大規模なデータセットを生成するためにユーザーに繰り返し問い合わせることは実行不可能になる。 そこで我々は、バッチxk∈R 3×H×Wの各画像に対して、1つのターゲットYk∈R 6をサンプリングする代替サンプリング戦略を提案する。 これにより、バウンディングボックスとカテゴリーラベルの大規模なセットを効果的かつ効率的にサンプリングし、多様性の高い画像の生成を導くことができる。 表1は,サンプリングプロセスの詳細をまとめたものである. このボックス・サンプラーは,1枚の画像に1つのオブジェクトを生成する. オブジェクトの密度を高めるために,我々は2つの技術を提案する.

(1)タイリング戦略, (2)偽陽性予測サンプリング(YF Pサンプリング)である.

タイリング戦略は、複数の1ラベル画像をグリッド化して、多オブジェクト画像を作成します。 また、Y{FP}サンプリングは、DIODE中にRBN(x)によって、初期化されたターゲットYに加えて、文脈に関連したオブジェクトが出現するという観察結果の副産物として開発されたものです。 しかし,信頼度の高いY{FP}を集約することで,教師のデータセットのラベル空間と意味的に一致した複雑なターゲットを構築することができる。 サンプリング戦略の結果、DIODEは利用可能なデータセットからの検出ラベルに完全に依存しません。 第5章の実験で示すように、タイリングまたはYF Pサンプリングのいずれかで強化することで、DIODEは1つの画像内に様々な寸法、数、カテゴリーのオブジェクトを生成し、蒸留などの下流のタスクを容易にすることができます。

3.2. DIODEのための微分可能な補強

反転時にバウンディングボックスとカテゴリーラベルを同時に満足させる必要があることから、eq.1は画質を向上させ、入力に強い特徴制約を課すが、最適化プロセスではすぐに収束してしまうため、画像の忠実性と汎用性が早期に飽和してしまうことがわかった。 最適化プロセスに挑戦し、ラベル保存変換に対してロバストな画像を生成するために、物体検出器のトレーニングに有益であることが広く示されている、様々なデータ補強セットをDIODEに追加します。 これにより、反転した画像の意味的内容が増強に対して不変であることを強制し、自然な画像に適合させることができます。 しかし、反転セットアップにおけるデータ補強の重要な要件の1つは、微分可能であることです。 最終的な損失関数から入力画像への勾配の伝搬を可能にするために、伝達関数は微分可能でなければならない。 この制約を満たすために,次のような補強方法を検討した.

(1)ランダムな水平反転, (2)x-y変換ジッター, (3)ランダムな輝度, (4)ランダムなコントラスト, (5)カットアウト [7].

なお,DeepInversion [44]では,分類ネットワークを反転させるために,最初の2つの戦略,すなわち,x-yジッターと水平反転を採用しています. しかし、オブジェクト検出器の反転という困難なタスクに対しては、これらの方法では不十分であり、生成された画像の品質を向上させるためには、充実した変換セットが不可欠であることがわかりました。 実験で示すように、これらの拡張機能をすべて使用することで、xinvの視覚的な忠実度と汎用性が大幅に向上します。

image

e4exp commented 3 years ago

4. 物体検出のためのデータ不要の知識抽出

本節では,合成的に生成された画像の大規模データセットを用いて,事前に学習された既製の教師検出器から生徒検出器を抽出する手法を提案する. 既存の物体検出器の抽出手法[19, 37, 42]とは異なり,本手法では教師の学習データから画像やラベルへのアクセスを必要としない. さらに,画像分類モデルのみを対象とした以前のデータ不要の蒸留アプローチ[2, 22, 28]とは異なり,我々は深層物体検出器ネットワークを蒸留する. 深層物体検出器の蒸留には,グランドトゥルースラベルを用いた学習に加えて,生徒と教師のニューラルネットワーク間の予測を一致させる模倣学習知識蒸留のパラダイムを利用する[1]. しかし、ここでは、入力xに関する教師の予測を用いて、生徒の検出器の最適化を導くコンポーネントのみを考慮する。 これらの予測は、生徒に伝えることができる豊富なカテゴリ間情報とソフトオブジェクト提案を符号化する。 より正確には,蒸留損失をLmimicとして定式化し,入力画像Xの集合に対する教師の予測と生徒の予測の間のL2距離を最小化する.

image

画像のコレクションXは、我々が合成した画像XDIODEでも、プロキシデータセットXproxyに属するものでも構わない。 我々のアプローチはデータフリーであるため、目的(eq.7)を最小化し、生徒を最適化するために、我々が合成したDIODEとその変種のデータセットを利用している。 後に示すように、これはドメインギャップ問題を抱えるプロキシデータセットよりも優れている。

e4exp commented 3 years ago

5. 実験

次に、既製の深層物体検出ネットワークからの画像合成に対するDIODEの能力を実証し、次に2つの深層物体検出ネットワーク間でデータフリーの知識蒸留を行います。 まず、広範囲の合成画像を示し、提案された個々の技術の貢献度を定量化するために、深さ方向のアブレーション研究を提供します。 次に、DIODEを用いて合成したデータセットを、2つのネットワーク間で知識を伝達するための他のプロキシデータセットと比較します。

5.1.実装の詳細

実験では、教師と生徒のネットワークとして、Yolo-V3の1段式物体検出ネットワーク[32]を使用した。 我々の目的は、ネットワークの圧縮ではなく、事前に学習したモデルから知識を抽出することなので、両方のネットワークは同じアーキテクチャを持つ。 教師(Φ)は,MSCOCOデータセットで事前に学習され,0.608 mAPの精度が得られている. 損失関数Ldetectには、LconfとLcategoryにはバイナリー・クロス・エントロピーを、Lboxには一般化IoU[34]を用いた[15]の定式化を使用している。 検出器の精度の指標として,平均精度(AP@IoU=0.5)を使用しています. コスト関数(式1)を5000回繰り返して最適化することにより,xinvを生成する. また,[44]のようなマルチ・レゾリューション・イメージ・ジェネレーション・アプローチを用いて,反転処理中の大きなバッチサイズを可能にした. これにより、大量の高解像度画像を高速に生成することができます。 DIODEのハイパーパラメータの値は補足資料をご覧ください。

検証者検出ネットワーク(Φverif )。

反転画像xinvの一般化可能性をチェックするために、[44]のパラダイムに従って、教師のデータセットで事前に訓練された別のYolo-V3-Tinyを検証ネットワークとして使用します。 反転画像のバッチは、検証者の予測が非常に正確であれば、よく一般化されていると言われます。 これは、xinvが、別の検出ネットワークによって独立して認識できる視覚的特徴を含んでいるため、反転された事前学習モデルΦに過剰適合していないことを意味する。 検証器は、画像の汎化性分析のための実験ツールとしてのみ機能しており、DIODEの損失計算(eq.1)における画像合成時には必要ないことに注意してください。

画像のタイリング。

私たちのバウンディングボックス戦略により、DIODEは1つの画像に対して1つのオブジェクトを合成することができます。 しかし、実際の画像には、文脈に応じて複数のオブジェクトが含まれていることが多い。 反転データセットのオブジェクト密度を高めるために、最大25枚の合成画像をタイリングして1枚のマルチオブジェクト画像に統合するタイリング戦略を利用しています。

YF Pサンプリング。

オブジェクト密度を高める別の方法として,セクション3.1で説明した偽陽性予測サンプリング(YF Pサンプリング)があります. 我々の実験では、ターゲットYが常に進化しているため、生成された画像の品質が低下することがわかりました。 そのため、ターゲット生成用の画像と、ターゲット固定用の画像の2回合成することも可能ですが、かなりの時間と資源が必要になります。 そこで、最も低い解像度(160)で1回だけYF Pをサンプリングしてラベルを生成し、それを固定ターゲットとしてマルチレゾリューションDIODEに使用することで、このコストを軽減しています。

5.2. DIODEを用いた画像合成

このセクションでは、まず生成された画像の定性的な結果を示し、次にDIODEのさまざまなコンポーネントを分析したアブレーション研究を紹介します。 図2は、DIODEを使用して生成された画像の代表例です。 このように、多様で高品質な汎用性の高い画像を生成することができます。 これらの生成された画像を詳しく見てみると、DIODEは明示的に文脈を最適化していないにもかかわらず、ターゲットの周りに文脈を生成していることが観察できます。 例えば、列車は線路の上に合成され、船は反射する水面の中に置かれています。 重要なのは、これらの画像は、教師のトレーニングデータ、事前に計算されたアクティベーション、GANジェネレータへのアクセスを一切必要とせずに生成されていることです。

次に、図3では、DIODEにおけるYF Pサンプリングの例を示しています。 図に示すように、画像は1つのターゲット(電子レンジ)から始まり、DIODEの反復の間に、カップやボウルなどの文脈に関連した偽陽性予測に遭遇し、それらをターゲットとして保持しています。 その結果、生成された画像には、意味的に一貫したオーバーラップするオブジェクトを含む複雑なラベル空間が形成されます。 ここで、微分可能なデータ拡張の利点を定量化することに焦点を当てる。 表2は、各戦略が検証者(Φverif )の精度に与える個別および累積の影響を示しています。 示されているように、個々のデータ補強は、補強なしのベースラインよりも向上しています。 重要なのは、カットアウトが単独で強力なオーグメンテーションであるにもかかわらず、すべてのオーグメンテーション手法を組み合わせることで、精度と初期化に対する堅牢性(低分散)の点で、個々のオーグメンテーションよりも大幅に改善されることである。 これは、データオーグメンテーションが最適化プロセスに挑戦し、実際のデータと同様に、意味内容がオーグメンテーションに対して不変である画像が得られるためです。

この実験の定性的な比較を図4に示します。この図では、ワイングラスの境界がはっきりしていることや、傘のリブ、車の車輪、ハンバーガーの層など、クラス特有の特徴的なパターンが現れていることがわかります。 これらの結果から、微分可能なデータ拡張を追加することで、生成される画像の品質と視覚的な忠実度が向上すると結論付けられます。 DIODEは、Yolo-V3検出器に限らず、他のオブジェクト検出器にも適応可能です。 図5は、SSD300[21]オブジェクト検出器にDIODEを適用した定性的な例を示しています。 図2と比較すると、色の分布は良くなっていますが、オブジェクトの境界が悪くなっていることが分かります。DIODEを使用することで、大規模な合成画像を非常に効率的に生成することができます。 このプロセスを繰り返し、DIODEを介して2500のバッチを生成します。各バッチは、異なるランダムシードとターゲットセットからサンプリングされ、バッチサイズは48、解像度は416×416、合計120kの画像を生成します。 並行して、このデータセットをYF Pサンプリングしたバージョンも生成します。 そして、次のセクションでは、これらの新しい合成画像を使って、データフリーの知識抽出を行う。

image

image

image

image

5.3. 物体検出のためのデータフリー知識抽出

ここでは、DIODEによって生成された合成画像を、物体検出のためのデータフリー知識抽出(KD)の文脈で評価することに焦点を当てます。 この目的のために、事前に学習された教師モデルΦを考え、その情報を学生検出器Φstuに蒸留する。 まず、教師のデータセットから画像とラベルを使用した場合の蒸留の影響を定量化する。 次に、第2の実験として、タイリングアプローチが一般化に与える影響を評価し、最後に、他のプロキシデータセットを用いた蒸留と比較して、我々の蒸留アプローチを評価した。 これらの実験では、蒸留法としてミミック学習を使用している。 この実験のハイパーパラメータの詳細は補足資料に記載している。 まず,教師のデータセットの画像とラベルを反転に使用した場合の蒸留の影響を定量化する。 表3では、まず、MS-COCOからの画像にアクセスできる模倣学習の最良のケースのパフォーマンスを示しています。

image

image

生徒(0.524mAP)と教師(0.608mAP)の精度の差は、現在の知識の蒸留方法では限界があることを知らせています。 次に、MS-COCOのラベルを条件とした合成画像を用いて、DIODEの可能な限りの性能を示します。 次に、画像も学習データのラベルも使用しない、データフリーのアプローチを示します。 最後の2行の違いから、MS-COCOのラベル空間には重要な情報が存在することがわかります。 YF Pサンプリングとタイリング戦略は、この違いに対抗する試みです。 次に、表4の合成画像をタイリングする際に、画像ごとのオブジェクト分布を選択する研究を行います。 実際のデータセットは、画像あたりのオブジェクトの数が可変であり、画像あたりのオブジェクトの分布は、ランダム、一様、またはMS-COCO[20]やVOC[9]のような既存のデータセットに類似したものを選択し、120000枚のタイル画像の4つのデータセットを生成した。 同じ表の1行目は,タイリングなしの合成画像で蒸留した学生の精度を示しています. 結果は以下の通りである.

(1) タイリングは,単一オブジェクトのDIODE画像に対する性能を向上させる (2) 教師のデータセットに類似した分布を用いることで最良の結果が得られる (3) ランダムタイリングは,教師のデータセットに関する情報が得られない場合に,競争力のある代替手段として機能する.

image

image

最後に、DIODEで生成した画像を用いた蒸留を他のプロキシデータセットと比較します。 比較のために、配布内プロキシと配布外プロキシの2種類を考えます。 配布中のデータセットには、先生のデータセット(MS-COCO)と同じようなカテゴリのオブジェクトが含まれています。 これは、教師の訓練に使われたデータを知っていて、それにできるだけ近いプロキシを選択するというシナリオを表しています。 一方,分布外のデータセットは,教師の訓練データとのカテゴリーの重複が最小限である. この場合,元の学習データを知らないというシナリオを表しており,したがって,プロキシデータをランダムに選択することになる。

本実験では,配布外のプロキシデータとして,一般的な物体の画像を表すVOC2007+2012 [9]とImageNet [6]を,配布外のプロキシデータとして,自律走行車シナリオのデータを表すBDD100k [45]とGTA5 [35]を用いる. なお,先生のデータセットのサンプル数に合わせて,プロキシデータセットを調整しています. 表5は、DIODEで生成した画像から生徒が抽出したデータと、プロキシデータセットの精度を比較したものである。 示されているように、YF Pサンプリング(0.450)mAP)を用いた提案手法によって生成された画像を用いた蒸留は、最良のアウトオブドメインのプロキシデータセット(0.313mAP)を上回り、同一ドメインのデータセットを用いた蒸留(0.466mAP)と競合している。 これらの結果は、元の学習データとプロキシデータの間の類似性の大きさに起因する。 図6は,同じドメインのデータセットがMS-COCOに非常によく似ていることを示している. これらのデータセットには同等のカテゴリのオブジェクトが含まれているため、より優れた蒸留精度を実現することができる。 それに比べて,GTA5 や BDD100k などのドメイン外のプロキシデータでは,学習データのカテゴリに含まれるオブジェクトが少なく,文脈も異なるため,結果が悪くなる. また、YF Pサンプリングによってオブジェクトの密度を高めると、文脈的に適切なターゲットがあるため、タイリングよりも優れた一般化が得られることにも注目しています。 しかし、5.1節で述べたように、YF Pサンプリングはより多くのリソースを必要とするため、計算機が限られている場合にはタイリングの方が好ましいかもしれません。