e4exp / paper_manager_abstract

0 stars 0 forks source link

Supervised Contrastive Learning #521

Open e4exp opened 3 years ago

e4exp commented 3 years ago

自己教師付き表現学習に適用されるコントラスト学習は、近年復活しており、ディープイメージモデルの教師なし学習において最先端の性能を発揮している。 最新のバッチコントラストアプローチは、triplet、max-margin、N-pairs lossなどの従来のコントラスト損失を包含するか、または大幅に上回るものである。 本研究では、自己教師付きのバッチコントラストアプローチを完全教師付きの設定に拡張し、ラベル情報を効果的に活用できるようにしました。 同じクラスに属する点のクラスターは、埋め込み空間で一緒に引き寄せられ、同時に異なるクラスのサンプルのクラスターを押し広げる。 教師付きコントラスト(SupCon)損失の2つのバージョンを分析し、最も性能の高い損失の形式を特定する。 ResNet-200では,ImageNetデータセットにおいて81.4%のトップ1精度を達成し,このアーキテクチャで報告されている最高の数値を0.8%上回った. また、他のデータセットや2種類のResNetにおいても、クロスエントロピーよりも一貫して高い性能を示しています。 損失関数は、自然破壊に対するロバスト性が高く、オプティマイザーやデータ増強などのハイパーパラメータ設定に対しても安定しています。 我々の損失関数は実装が簡単であり、参照用のTensorFlowコードはこのhttps URLで公開されている。

https://t.ly/supcon

e4exp commented 3 years ago

1 はじめに

クロスエントロピー損失は,深層分類モデルの教師付き学習で最も広く使用されている損失関数です. この損失の欠点として,ノイズの多いラベルに対するロバスト性の欠如[64, 46]や,劣悪なマージンの可能性[10, 31]などが挙げられ,汎化性能の低下につながることが指摘されている. しかし,実際には,ImageNet [7]のような大規模データセットでは,提案された代替案のほとんどがうまく機能しておらず,最先端の結果を得るためにクロスエントロピーが引き続き使用されていることからも明らかである[5, 6, 56, 25]

近年,対比学習の研究が復活し,自己教師付き表現学習の大きな進歩につながっている[55, 18, 38, 48, 22, 3, 15]. これらの研究に共通するアイデアは、埋め込み空間でアンカーと「正」のサンプルを引き合わせ、多くの「負」のサンプルからアンカーを押し離す、というものである。 ラベルが利用できないため,正のペアはしばしばサンプルのデータ補強で構成され,負のペアはアンカーとミニバッチからランダムに選ばれたサンプルで形成される。 これは、図2(左)に描かれています。 38, 48]では,データの異なるビュー間の相互情報量を最大化するために,コントラスト損失の接続が行われている. 本研究では、ラベル情報を活用することで、対比的な自己教師付き学習の文献を基にした教師付き学習のための損失を提案する。

同じクラスの正規化された埋め込みは、異なるクラスの埋め込みよりも近くに引き寄せられる。 本研究の技術的な新機軸は、アンカーごとに多数のネガティブに加えて多数のポジティブを考慮することである(単一のポジティブのみを使用する自己教師付き対比学習とは対照的である)。 これらのポジティブは、自己教師付き学習のようにアンカーのデータを拡張するのではなく、アンカーと同じクラスのサンプルから抽出される。 これは,自己監視型学習の設定を簡単に拡張したものであるが,損失関数を正しく設定する方法は明らかではなく,2つの選択肢を分析した. 図2(右)と図1(補足)は、我々の提案する損失を視覚的に説明したものである。 前者はアンカーごとに1つの正と1つの負のサンプルを使用し,後者は1つの正と多くの負のサンプルを使用する. 各アンカーに多数のポジティブと多数のネガティブを使用することで,適切なチューニングが困難なハードネガティブマイニングを必要とせずに,最先端のパフォーマンスを実現することができる. 我々の知る限り、この手法は、大規模な分類問題においてクロスエントロピーよりも一貫して優れた性能を示した初めてのコントラスト損失です。 さらに、自己教師付き学習、教師付き学習のいずれにも使用できる統一的な損失関数を提供しています。

このようにして得られた損失であるSupConは,実装が簡単で,安定して学習できることが実証されています. また、ImageNetデータセットにおいて、ResNet-50およびResNet-200アーキテクチャで優れたトップ-1精度を達成しました[17]。 ResNet-200 [5]では,81.4%のトップ1精度を達成しており,これは,同じアーキテクチャ上での最先端のクロスエントロピー損失 [30]よりも0.8%向上しています(図1参照). また,ImageNet-Cデータセット[19]で測定したところ,トップ1精度の向上に伴い,ロバスト性も向上しました.

我々の主な貢献は以下の通りである。 1.我々は、アンカーごとに複数のポジティブを許容するコントラスト損失関数の新しい拡張を提案し、コントラスト学習を完全な教師付き設定に適応させる。分析的にも経験的にも、ナイーブな拡張は我々の提案したバージョンよりもはるかに悪いパフォーマンスを示している。

  1. 2.我々の損失は、多くのデータセットにおいて、トップ1の精度を一貫して向上させることを示す。また,自然な破損に対してもより頑健である.
  2. 損失関数の勾配が、ハードポジティブとハードネガティブからの学習を促進することを分析的に示す。
  3. 我々の損失は、様々なハイパーパラメータに対して、クロスエントロピーよりも感度が低いことを経験的に示しています。

image

image

e4exp commented 3 years ago

3 方法

我々の方法は、[48, 3]で用いられた自己教師付き対照学習の方法と構造的に似ているが、教師付き分類のために修正を加えたものである。 入力データがあると、まずデータ補強を2回行い、バッチのコピーを2つ取得します。 この2つのコピーをエンコーダネットワークに転送し、2048次元の正規化された埋め込みデータを得ます。 学習時には、この表現が投影ネットワークを通じてさらに伝播され、推論時には破棄されます。 教師によるコントラスト損失は、投影ネットワークの出力に対して計算されます。 訓練されたモデルを分類に用いるために,クロスエントロピー損失を用いて,凍結された表現の上に線形分類器を訓練する. 補足資料の図1では,視覚的な説明がなされている.

3.1 表現学習フレームワーク

本フレームワークの主な構成要素は以下の通りです。

3.2 対比損失関数

このようなフレームワークを前提として,対比損失関数のファミリーについて,自己監視領域から始めて,それを監視領域に適応させるためのオプションを分析し,1つの公式が優れていることを示します。 N個のランダムにサンプリングされたサンプル/ラベルペア{xk, yk}k=1...Nに対して、学習に用いられる対応するバッチは、2N個のペア{x〜, y〜}`=1...2Nから構成される。 ここで、x〜2kとx〜2k-1は、xk (k = 1...N)の2つのランダムな拡張(別名、「ビュー」)であり、y〜2k-1 = y〜2k = yk である。本論文の残りの部分では、N個のサンプルのセットを「バッチ」と呼び、2N個のオーグメンテーションされたサンプルのセットを「マルチビューバッチ」と呼ぶことにします。

3.2.1 自己教師付きコントラスト損失

多視点バッチ内で、i∈I≡{1...2N}を任意の拡張サンプルのインデックスとし、j(i)を同じソースサンプルに由来する他の拡張サンプルのインデックスとする。 自己教師付き対比学習(例えば、[3, 48, 18, 22])では、損失は次のような形をとる。

image

ここで,z= P roj(Enc(x〜))∈RDP,-記号は内積(ドット),τ∈R+はスカラーの温度パラメータ,A(i)≡I \ {i}である。 添字iはアンカー、添字j(i)はポジティブ、その他の2(N - 1)個の添字({k ∈ A(i) ♯{j(i)})はネガティブと呼ばれます。 なお、各アンカーiには、正のペアが1組、負のペアが2N - 2組あります。 分母には2N - 1個の項(正と負)があります。

3.2.2 教師付きコントラスト損失

教師付き学習では,式1のコントラスト損失は,ラベルの存在により,複数のサンプルが同じクラスに属することがわかっている場合には対応できない. しかし,任意の数の陽性に一般化すると,複数の可能な関数の中から選択することになる. 式2と式3は、式1を一般化して監視を組み込むための2つの最も簡単な方法を示している。

image

ここで,P(i)≡{p∈A(i) : y〜p = y〜i}は,マルチビューイングされたバッチの中でiと異なるすべてのポジティブのインデックスのセットであり,|P(i)|はそのカーディナリティである。 式2では,陽性の合計はログの外側(L sup out )に位置し,式3では,合計はログの内側(L sup in )に位置する. どちらのロスも次のような望ましい特性を持っています。