e4exp / paper_manager_abstract

0 stars 0 forks source link

SelfAugment: Automatic Augmentation Policies for Self-Supervised Learning #558

Open e4exp opened 3 years ago

e4exp commented 3 years ago

教師なし表現学習では,ラベル付きデータを用いて学習した表現の品質を評価するのが一般的である. この教師付き評価は,データ増強方針の選択など,学習プロセスの重要な側面を導くために用いられる. しかし、ラベルを持たない実世界のデータ(例えば、医用画像のようにプライバシーが重視される分野)では、教師付き評価によって教師なしの学習プロセスを導くことは不可能である。 そこで本研究では、自己教師付きの画像回転タスクで学習した表現を評価すると、標準的な教師付き評価と高い相関があることを示します(順位相関>0.94)。 この相関関係は、数百種類の拡張政策、学習設定、ネットワークアーキテクチャに渡って確立され、教師付き評価を使わずに自動的かつ効率的に拡張政策を選択するアルゴリズム(SelfAugment)を提供している。 ラベル付きデータを使用していないにもかかわらず、学習された拡張ポリシーは、徹底的な教師付き評価を用いて決定された拡張ポリシーと同等の性能を発揮する。

e4exp commented 3 years ago

1. はじめに

教師なし学習の一種である自己教師付き学習は,人間のアノテーションなしに目標を作成するものであり,ラベルのない視覚データから顕著な特徴表現を捉える能力を飛躍的に向上させている. その結果,ラベル付きの同じデータから学習した表現よりも,これらの表現の方が優れているケースが増えてきている[1, 2, 3]. これらの進歩の中心となるのは,インスタンス対比学習の一形態であり,1つの画像に2つの別々のデータを付加し,ランダムにサンプリングされた他の付加画像と対比したときに,どの付加画像が同じ画像に由来するのかを区別するようにネットワークを学習するものである[1, 3, 4, 5]. 図1に示すように,最近の研究[1, 4, 6]では,学習に使用する拡張ポリシーを決定するために,広範囲の教師付き評価を行っている. このスイートスポットを見つけることが,様々なタスクにおいて最先端の性能を発揮できるかどうかの分かれ目となる[6]. しかし,プライバシーが重視される分野(例:医用画像[7])や,ラベルの定義が非常に曖昧なアプリケーション(例:ファッションや小売業の分類[8])では,正確なラベル付けされたデータを取得することが困難または不可能な場合が多く,また,1つの表現セットを下流の多様なタスクに使用する場合(例:自律走行システム[9])には実用的ではない. そこで、次のような課題があります。 ラベル付きデータが利用できない場合,自己教師付きモデルをどのように評価すればよいのか,特に効率的に拡張ポリシーを選択するにはどうすればよいのか. 本論文では、この問題を以下のように解決します。

image

e4exp commented 3 years ago

3. 自己監視評価とデータ補強

我々の主な目標は、 (i)自己監視評価タスクと、自己監視モデルの評価によく使われる監視評価タスクとの間に強い相関関係を確立すること、 (ii)自己監視によるデータ補強選択のための実用的なアルゴリズムを開発することである。

以下のサブセクションでは,これらの目標をより詳細に定義する.

3.1. 自己教師化評価

ラベル付きデータの場合,補強方針の選択は教師化タスクのパフォーマンスを直接最適化することができる[36, 37]. ラベルのないデータでは,ラベルを必要とせずに,教師付きタスクの性能と高い相関を持つ評価基準を求めることができる. 自己教師付きタスクがネットワーク・アーキテクチャの評価に利用できることを示した[39]にヒントを得て,表現を評価するために以下の自己教師付きタスクを調査する.

強調すべき重要な点は、これらの自己教師付きタスクが、MoCoなどのインスタンス対比アルゴリズムから学習された表現を評価するために使用されていることである。 これらのself-supervisedタスクは、本来、表現そのものを学習するために用いられるが、本研究では、これらのタスクを用いて表現を評価する。 §4では、これらの各評価と、訓練データ上でクロスエントロピーロスを用いて訓練されたフローズンバックボーン上の教師付きトップ1線形評価との相関を計算する。

3.2. 自己監視下データの拡張政策

我々は,監視下領域から拡張政策を選択するために,サンプリングベースの戦略であるRandAugment [35]と,検索ベースの戦略であるFast AutoAugment (FAA) [37]の2つのアプローチを研究し,適用する. 37]の表記法を用いて,入力画像Xに対する画像変換操作O : X → Xの集合をOとする. 37, 38] に倣い,O を以下のように定義する. カットアウト,オートコントラスト,イコライズ,ローテート,ソラライズ,カラー,ポスタライズ,コントラスト,ブライトネス,シャープネス,シアー-x,シアー-y,トランスレート-x,トランスレート-y,インバート}.(詳細は付録Bを参照)。

各変換Oは2つのパラメータを持っています。 ここで,サブポリシーτ∈Sは,Nτ個の連続した変換{O¯ (τ) n (x; p (τ) n ,λ (τ) n ) : n = 1,...,Nτ}を順次適用するものとして定義され,各操作は確率pで入力画像に順次適用される。 サブポリシーτ(x)の適用は、x〜(n) = O¯ (τ) n (x〜(n-1) ) for n = 1,...,Nτ の変換の合成であり、完全なサブポリシーの適用は、x〜(Nτ ) = τ(x)と略記され、最初の適用はx〜(0) = xとなります。 完全なポリシーTは、NTサブポリシーの集合であり、T (D)は、Tを適用して得られたDからの画像の集合を表します。

SelfRandAugment。

RandAugmentでは,以下のような簡単な仮定をしている. (i) すべての変換は,単一の離散的な大きさ,λ∈[1,30] を共有する (ii) すべてのサブポリシーは,同じ数の変換を適用する,Nτ (iii) すべての変換は,一様な確率で適用される,KT = |O|変換の場合,p = K -1 T.

RandAugmentは,(Nτ ,λ)上のグリッド検索から最良の結果を選択する. このアルゴリズムをインスタンス対比学習に適応させるために、§3.1の自己教師付き評価を用いて検索された(Nτ ,λ)状態を単純に評価し、これをSelfRandAugmentと呼ぶ。

SelfAugment。

探索ベースのFAAアルゴリズムを自己監視型の設定に適応させ、この適応をSelfAugmentと呼ぶ。 形式的には,データXに対する分布をDとする. 任意のDtrainとDvalidのペアに対して,FAAはDtrainの密度と拡張されたT(Dvalid)の密度をほぼ一致させる拡張政策を選択する. つまり,この変換によって,モデルが意味のある特徴を強化し,増強されたデータセットで再学習した後に重要でない特徴に対して不変になるようにする必要があります. 実際には,FAAはDtrainをDMとDAに分割し,DMはモデルのトレーニングに,DAは以下の方法でポリシーを決定するのに使用します。

image

ここで,θM は DM を用いて学習されます. これは,共有されたモデルパラメータ θM を用いて予測を改善するために,拡張を用いて DM の密度と T (DA) との間の距離を最小化することに近似していますが,その導出については [37] を参照してください。 FAA は,S から一連のサブポリシーをサンプリングし,T (DA) 上の L(θ|-) を最小化するように確率 {p1,..., pNT } と大きさ {λ1,..., λNT } を調整するベイズ最適化手法を用いて,B 個の候補ポリシー B = {T1,..., TB} を探索することで,最終的なポリシー T ∗ を得る(詳細は付録 F を参照)。 各データスプリットの上位P個のポリシーは,T∗ にマージされます. そして,このポリシーを用いて,すべての学習データT ∗ (Dtrain)に対してネットワークの再学習を行い,最終的なネットワークのパラメータθ ∗ を得る. SelfAugmentは、Fast AutoAugmentと比べて3つの大きな違いがあります。

ベースポリシーの選択。

θMを決定するためのトレーニングのファーストパスを行うためには、ベースとなるオーグメンテーション・ポリシーが必要です。 SelfAugmentでは、MoCoネットワーク[4]をOの各変換とrandom-resize-crop([1]で最もパフォーマンスの高い単一変換)について短期間トレーニングすることで、このポリシーを決定します。 各変換は反復ごとに適用され,p = 1および大きさパラメータλは反復ごとに[37]の範囲内で確率的に設定されます. 各ネットワークは、損失曲線が分離するまで学習されます。 これは、通常、事前学習に使用される総学習エポック数の約10%であることがわかりました。 その後、バックボーンをフリーズさせ、各ネットワークに対して線形自己教師付き評価タスクであるφssを学習し、保持しているトレーニングデータを用いて評価する。 そして,最も良い評価を得た変換を基本方針とする.

オーグメンテーション・ポリシーの検索。

ベースの拡張が与えられたとき、我々はトレーニングデータをkフォールドに分割する。 各フォールドに対して、基本拡張を用いてMoCoネットワークθmocoを学習し、ネットワークをフリーズさせ、自己教師付き評価層φssを学習する。 方針の決定には、FAAと同じベイジアン最適化探索戦略を用いる。 しかし、損失関数L(θ|D)は、FAAのように教師ありの精度を使うことができないため、自己教師ありの損失関数の4つのバリエーションを検討する。 付録Gでは、これらの損失関数の詳細について説明し、§5では、これらの損失関数と教師ありの損失関数を比較します。

完全なトレーニングデータセットとオーグメンテーションポリシーを用いて、MoCoを再学習する。

SelfAugmentは、損失関数から選択されたポリシーを使用し、完全なデータセットDtrainでゼロから再学習します。 SelfAugmentから学習されたオーグメンテーション・ポリシーは、評価タスクではなく、インスタンス対比タスクに使用されるため、自己教師評価損失を最小化するオーグメンテーションは、必ずしもインスタンス対比の事前学習に最適なオーグメンテーションではないことに注意が必要である。 むしろ、この方法は、拡張子選択時に使用したバックボーンの上に線形層を直接再学習した場合に、高い評価性能をもたらす拡張子のセットを提供するものである[37]。 したがって、InfoNCE損失を組み込むことで、インスタンス対比タスクと下流タスクのバランスをとることができます。 §4とAppendix Gでは、これに関する強力な経験的証拠を観察します。

e4exp commented 3 years ago

image