SelfAugment: Automatic Augmentation Policies for Self-Supervised Learning

e4exp commented 3 years ago

https://arxiv.org/abs/2009.07724
2020, CVPR 2021

教師なし表現学習では，ラベル付きデータを用いて学習した表現の品質を評価するのが一般的である．この教師付き評価は，データ増強方針の選択など，学習プロセスの重要な側面を導くために用いられる．しかし、ラベルを持たない実世界のデータ（例えば、医用画像のようにプライバシーが重視される分野）では、教師付き評価によって教師なしの学習プロセスを導くことは不可能である。そこで本研究では、自己教師付きの画像回転タスクで学習した表現を評価すると、標準的な教師付き評価と高い相関があることを示します（順位相関＞0.94）。この相関関係は、数百種類の拡張政策、学習設定、ネットワークアーキテクチャに渡って確立され、教師付き評価を使わずに自動的かつ効率的に拡張政策を選択するアルゴリズム(SelfAugment)を提供している。ラベル付きデータを使用していないにもかかわらず、学習された拡張ポリシーは、徹底的な教師付き評価を用いて決定された拡張ポリシーと同等の性能を発揮する。

e4exp commented 3 years ago

1. はじめに

教師なし学習の一種である自己教師付き学習は，人間のアノテーションなしに目標を作成するものであり，ラベルのない視覚データから顕著な特徴表現を捉える能力を飛躍的に向上させている．その結果，ラベル付きの同じデータから学習した表現よりも，これらの表現の方が優れているケースが増えてきている[1, 2, 3]．これらの進歩の中心となるのは，インスタンス対比学習の一形態であり，1つの画像に2つの別々のデータを付加し，ランダムにサンプリングされた他の付加画像と対比したときに，どの付加画像が同じ画像に由来するのかを区別するようにネットワークを学習するものである[1, 3, 4, 5]．図1に示すように，最近の研究[1, 4, 6]では，学習に使用する拡張ポリシーを決定するために，広範囲の教師付き評価を行っている．このスイートスポットを見つけることが，様々なタスクにおいて最先端の性能を発揮できるかどうかの分かれ目となる[6]．しかし，プライバシーが重視される分野（例：医用画像[7]）や，ラベルの定義が非常に曖昧なアプリケーション（例：ファッションや小売業の分類[8]）では，正確なラベル付けされたデータを取得することが困難または不可能な場合が多く，また，1つの表現セットを下流の多様なタスクに使用する場合（例：自律走行システム[9]）には実用的ではない．そこで、次のような課題があります。ラベル付きデータが利用できない場合，自己教師付きモデルをどのように評価すればよいのか，特に効率的に拡張ポリシーを選択するにはどうすればよいのか．本論文では、この問題を以下のように解決します。

我々は、6つの標準的な認識データセット（CIFAR-10 [10] SVHN [11] ImageNet [12] PASCAL [13] COCO [14] Places-205 [15]）において、線形の画像回転予測評価タスクが下流の教師ありパフォーマンスと高い相関性を持つことを示した（順位相関ρ＞0. 94）、6つの標準的な認識データセット（CIFAR-10 [10]、SVHN [11]、ImageNet [12]、PASCAL [13]、COCO [14]、Places-205 [15]）とタスク（画像分類、物体検出、数ショットのバリエーション）において、数百の学習済み表現を対象に、線形分離可能性能、半教師付き性能、転移学習性能の3種類の一般的な評価手法にまたがって評価する。
自己教師付き評価を用いて、2つの自動データ拡張アルゴリズムをインスタンス対比学習に適用した。これらのアルゴリズムは、ラベル付き評価を用いることなく、教師付きフィードバックを用いて得られたポリシーと一致するか、または凌駕する増強ポリシーを発見し、わずかな計算量で済む。
さらに，線形画像回転予測を用いて表現を評価することは，ネットワークアーキテクチャを問わず有効であり，画像回転予測は，ジグソー[16]や色予測[17]の評価タスクよりも，教師ありの性能と強い相関があることを示した．これらの貢献と実験に基づき，画像回転予測は，インスタンス対比学習のためのデータ補強を評価・選択するための強力な教師なし評価基準であると結論づけた．

e4exp commented 3 years ago

3. 自己監視評価とデータ補強

我々の主な目標は、 (i)自己監視評価タスクと、自己監視モデルの評価によく使われる監視評価タスクとの間に強い相関関係を確立すること、 (ii)自己監視によるデータ補強選択のための実用的なアルゴリズムを開発することである。

以下のサブセクションでは，これらの目標をより詳細に定義する．

3.1. 自己教師化評価

ラベル付きデータの場合，補強方針の選択は教師化タスクのパフォーマンスを直接最適化することができる[36, 37]．ラベルのないデータでは，ラベルを必要とせずに，教師付きタスクの性能と高い相関を持つ評価基準を求めることができる．自己教師付きタスクがネットワーク・アーキテクチャの評価に利用できることを示した[39]にヒントを得て，表現を評価するために以下の自己教師付きタスクを調査する．

rotation [28]: 入力画像をあらかじめ設定された4つの回転{0 ,90 ,180, 270}のうちの1つに回転させ，4方向の回転予測分類精度を評価指標とする
jigsaw [16]: 入力画像の4つの象限をランダムにシャッフルし，4! = 24通りの分類精度
colorization [17]: 入力はグレースケール画像で、評価指標はあらかじめ定義された色クラスのピクセル単位の分類として定式化される(313, from [17])

強調すべき重要な点は、これらの自己教師付きタスクが、MoCoなどのインスタンス対比アルゴリズムから学習された表現を評価するために使用されていることである。これらのself-supervisedタスクは、本来、表現そのものを学習するために用いられるが、本研究では、これらのタスクを用いて表現を評価する。 §4では、これらの各評価と、訓練データ上でクロスエントロピーロスを用いて訓練されたフローズンバックボーン上の教師付きトップ1線形評価との相関を計算する。

3.2. 自己監視下データの拡張政策

我々は，監視下領域から拡張政策を選択するために，サンプリングベースの戦略であるRandAugment [35]と，検索ベースの戦略であるFast AutoAugment (FAA) [37]の2つのアプローチを研究し，適用する． 37]の表記法を用いて，入力画像Xに対する画像変換操作O : X → Xの集合をOとする． 37, 38] に倣い，O を以下のように定義する．カットアウト，オートコントラスト，イコライズ，ローテート，ソラライズ，カラー，ポスタライズ，コントラスト，ブライトネス，シャープネス，シアー-x，シアー-y，トランスレート-x，トランスレート-y，インバート｝．(詳細は付録Bを参照)。

各変換Oは2つのパラメータを持っています。ここで，サブポリシーτ∈Sは，Nτ個の連続した変換{O¯ (τ) n (x; p (τ) n ,λ (τ) n ) : n = 1,...,Nτ}を順次適用するものとして定義され，各操作は確率pで入力画像に順次適用される。サブポリシーτ(x)の適用は、x〜(n) = O¯ (τ) n (x〜(n-1) ) for n = 1,...,Nτ の変換の合成であり、完全なサブポリシーの適用は、x〜(Nτ ) = τ(x)と略記され、最初の適用はx〜(0) = xとなります。完全なポリシーTは、NTサブポリシーの集合であり、T (D)は、Tを適用して得られたDからの画像の集合を表します。

SelfRandAugment。

RandAugmentでは，以下のような簡単な仮定をしている． (i) すべての変換は，単一の離散的な大きさ，λ∈[1,30] を共有する (ii) すべてのサブポリシーは，同じ数の変換を適用する，Nτ (iii) すべての変換は，一様な確率で適用される，KT = |O|変換の場合，p = K -1 T．

RandAugmentは，(Nτ ,λ)上のグリッド検索から最良の結果を選択する．このアルゴリズムをインスタンス対比学習に適応させるために、§3.1の自己教師付き評価を用いて検索された(Nτ ,λ)状態を単純に評価し、これをSelfRandAugmentと呼ぶ。

SelfAugment。

探索ベースのFAAアルゴリズムを自己監視型の設定に適応させ、この適応をSelfAugmentと呼ぶ。形式的には，データXに対する分布をDとする．任意のDtrainとDvalidのペアに対して，FAAはDtrainの密度と拡張されたT（Dvalid）の密度をほぼ一致させる拡張政策を選択する．つまり，この変換によって，モデルが意味のある特徴を強化し，増強されたデータセットで再学習した後に重要でない特徴に対して不変になるようにする必要があります．実際には，FAAはDtrainをDMとDAに分割し，DMはモデルのトレーニングに，DAは以下の方法でポリシーを決定するのに使用します。

ここで，θM は DM を用いて学習されます．これは，共有されたモデルパラメータ θM を用いて予測を改善するために，拡張を用いて DM の密度と T (DA) との間の距離を最小化することに近似していますが，その導出については [37] を参照してください。 FAA は，S から一連のサブポリシーをサンプリングし，T (DA) 上の L(θ|-) を最小化するように確率 {p1,..., pNT } と大きさ {λ1,..., λNT } を調整するベイズ最適化手法を用いて，B 個の候補ポリシー B = {T1,..., TB} を探索することで，最終的なポリシー T ∗ を得る（詳細は付録 F を参照）。各データスプリットの上位P個のポリシーは，T∗ にマージされます．そして，このポリシーを用いて，すべての学習データT ∗ (Dtrain)に対してネットワークの再学習を行い，最終的なネットワークのパラメータθ ∗ を得る． SelfAugmentは、Fast AutoAugmentと比べて3つの大きな違いがあります。

ベースポリシーの選択。

θMを決定するためのトレーニングのファーストパスを行うためには、ベースとなるオーグメンテーション・ポリシーが必要です。 SelfAugmentでは、MoCoネットワーク[4]をOの各変換とrandom-resize-crop（[1]で最もパフォーマンスの高い単一変換）について短期間トレーニングすることで、このポリシーを決定します。各変換は反復ごとに適用され，p = 1および大きさパラメータλは反復ごとに[37]の範囲内で確率的に設定されます．各ネットワークは、損失曲線が分離するまで学習されます。これは、通常、事前学習に使用される総学習エポック数の約10％であることがわかりました。その後、バックボーンをフリーズさせ、各ネットワークに対して線形自己教師付き評価タスクであるφssを学習し、保持しているトレーニングデータを用いて評価する。そして，最も良い評価を得た変換を基本方針とする．

オーグメンテーション・ポリシーの検索。

ベースの拡張が与えられたとき、我々はトレーニングデータをkフォールドに分割する。各フォールドに対して、基本拡張を用いてMoCoネットワークθmocoを学習し、ネットワークをフリーズさせ、自己教師付き評価層φssを学習する。方針の決定には、FAAと同じベイジアン最適化探索戦略を用いる。しかし、損失関数L(θ|D)は、FAAのように教師ありの精度を使うことができないため、自己教師ありの損失関数の4つのバリエーションを検討する。付録Gでは、これらの損失関数の詳細について説明し、§5では、これらの損失関数と教師ありの損失関数を比較します。

Min.eval error．T SS = argminT Lss(θM,φss|T (DA)) ここで、Lssは自己教師付き評価損失であり、同じベースネットワークの上に線形層が再学習された場合、評価タスクのパフォーマンスが直接向上するようなポリシーが得られる。自己保存エラーを最小化することで、識別可能な画像特徴を強化する増強政策が促される。
Min InfoNCE: T I-min = argminT LNCE(θM|T (DA)) ここで、LNCEは式1からのInfoNCE損失であり、コントラスト特徴空間での画像ペアの識別を容易にする政策が得られる。画像ペアを区別する簡単な方法は、ペアの画像が高い類似性を持つように弱い補強を使用することであることは注目に値します。
Max InfoNCE: T I-max = argminT - LNCE(θM|T (DA)) 前述の損失関数を否定することで、特徴空間において画像ペアを識別することが困難なポリシーを得ることができる。この損失関数を最適化することは、ネットワークが意味のある表現を学習するためのトレーニングとしては過度に挑戦的な増大政策を促すことになる。
Min Lss max LNCE: T minmax = argminT Lss - LNCE は、InfoNCE を最大化して挑戦的な増大政策を促進し、Lss を最小化して識別可能な画像特徴を促進する政策を同時に生成する。

完全なトレーニングデータセットとオーグメンテーションポリシーを用いて、MoCoを再学習する。

SelfAugmentは、損失関数から選択されたポリシーを使用し、完全なデータセットDtrainでゼロから再学習します。 SelfAugmentから学習されたオーグメンテーション・ポリシーは、評価タスクではなく、インスタンス対比タスクに使用されるため、自己教師評価損失を最小化するオーグメンテーションは、必ずしもインスタンス対比の事前学習に最適なオーグメンテーションではないことに注意が必要である。むしろ、この方法は、拡張子選択時に使用したバックボーンの上に線形層を直接再学習した場合に、高い評価性能をもたらす拡張子のセットを提供するものである[37]。したがって、InfoNCE損失を組み込むことで、インスタンス対比タスクと下流タスクのバランスをとることができます。 §4とAppendix Gでは、これに関する強力な経験的証拠を観察します。

e4exp commented 3 years ago

e4exp / paper_manager_abstract