e4exp / paper_manager_abstract

0 stars 0 forks source link

With a Little Help from My Friends: Nearest-Neighbor Contrastive Learning of Visual Representations #440

Open e4exp opened 3 years ago

e4exp commented 3 years ago

インスタンス判別に基づく自己教師付き学習アルゴリズムは、同じインスタンスの事前定義された変換に対して不変であるようにエンコーダを訓練します。 多くの手法では、同じ画像の異なるビューをコントラスト損失のためのポジティブとして扱いますが、我々はデータセット内の他のインスタンスからのポジティブを使用することに興味があります。 我々の手法、Nearest-Neighbor Contrastive Learning of visual Representations (NNCLR)は、データセットから潜在空間内の最近傍をサンプリングし、それらをポジティブに扱うものである。 これにより、あらかじめ定義された変換よりも、より意味的なバリエーションが得られる。

対照的な損失の中で最近傍をポジティブとして使用することで、ImageNetの分類において71.7%から75.6%へと大幅に性能が向上し、これまでの最先端の手法よりも優れていることがわかった。 半教師付き学習のベンチマークでは,1%のImageNetラベルしか利用できない場合に,53.8%から56.5%へと大幅に性能が向上した. 転移学習のベンチマークでは,12個のデータセットのうち8個のデータセットにおいて,ImageNetを用いた教師あり学習を含む最新の手法を上回る結果を得た. さらに、我々の手法は、複雑なデータ補強への依存度が低いことを経験的に示している。 ランダムな作物のみを用いて学習した場合、ImageNet Top-1の精度が2.1%だけ相対的に低下することが分かりました。

e4exp commented 3 years ago

image

  1. はじめに

人は新しい感覚的な経験をどのように理解するのでしょうか。 例えば、ドードーの写真を見せられたとき、人は何を考えているのでしょうか? ドードーが何であるかを明確に知らされなくても、ドードーと他の類似した意味クラスとの間に連想を形成することでしょう。 このように,新しい感覚入力をすでに経験したものと対比・比較する行為は,無意識のうちに行われており,人間が概念を素早く獲得できることに重要な役割を果たしていると考えられる[23]。 本研究では,過去に見た例の中から項目間の類似性を見つけ出す能力が,自己教師付き表現学習のパフォーマンスを向上させることを示す. 自己教師付き学習の一種である「インスタンス判別」[10, 32, 57]は、最近人気がある。 モデルは1つのサンプルの複数の変換に対して不変であることが推奨される。 このアプローチは,自己教師付きモデルと教師付きモデルの性能差を埋めることに成功しています [10, 26]. インスタンス識別の設定では,モデルにドードーの写真を見せると,そのドードーの画像が訓練セットの他のすべての画像と何が違うのかを区別するように訓練されることで,モデルは表現を学習します. 本研究では、モデルに、与えられたドードーの画像に似た他の画像サンプルも見つけられるようにしたら、より良い学習ができるのではないか、という疑問を投げかけます。 現在の最新のインスタンス判別法は、データ増強を用いて正のサンプルを生成します。 これは、同じサンプルにランダムな画像変換(ランダムな切り抜きなど)を施し、同じ画像の複数のビューを得るものです。 これらの複数のビューはポジティブであると仮定され、埋込空間内でポジティブが可能な限り近づき、些細な解に陥らないようにすることで表現が学習される。 しかし、ランダムな刈り込みや色の変更などのランダムな補強は、異なる視点や同じオブジェクトの変形、あるいは意味クラス内の他の類似したインスタンスに対しても正のペアを提供することはできない。 汎化の責任はデータ補強パイプラインにあり、与えられたクラスのすべての分散をカバーすることはできません。

本研究では、単一のインスタンスポジティブを超えて、インスタンス識別タスクに興味を持っています。 そうすることで、異なる視点や変形、さらにはクラス内の変動にも影響されない、より良い特徴を学習できると期待しています。 シングルインスタンスポジティブを超える利点は[28, 38]で確立されていますが,これらの作品はポジティブを得るためにクラスラベルや複数のモダリティ(RGBフレームとフロー)を必要とし,我々のドメインには適用できません. クラスタリングに基づく手法[6, 8, 63]も,単一インスタンスのポジティブを超えたアプローチを提供しているが,クラスタ全体(またはそのプロトタイプ)をポジティブと仮定すると,初期の過剰な一般化により性能が低下する可能性がある. その代わりに、我々は学習した表現空間の最近傍をポジティブとすることを提案する。 我々は、同じサンプルの異なるビューと、潜在空間におけるそれらの最近傍との間の近接性を促進することで、表現を学習する。 我々のアプローチであるNNCLR(Nearest-Neighbour Contrastive Learning of visual Representations)により、モデルは、データ増強スキームではカバーされていない可能性のある新しいデータポイントに一般化することが奨励される。 言い換えれば、埋め込み空間におけるサンプルの最近傍は、虚数ではない小さな意味的摂動として作用する、すなわち、データセットにおける実際の意味的サンプルを代表するものである。 我々の手法は、[10, 11]と同様の対比学習の設定で実装する。 最近傍を得るために、データセットのサブセットの埋め込みをメモリに保持するサポートセットを利用する。 このサポートセットは、学習中に常に補充されます。 我々のサポートセットは、メモリバンク[53, 57]やキュー[12]とは異なり、保存された特徴がネガティブなものとして使用されることに注意してください。 我々は、サンプル間のポジティブを検索するために、サポートセットを最近傍探索に利用する。 図1は,この手法の概要を示している. 我々の貢献は以下の通りである。

(i) NNCLRを導入し、クラスタリングに頼ることなく、単一サンプルのポジティブを超えた自己教師付き表現を学習する。 (ii) NNCLRが対比学習法(例えばSimCLR[11])の性能を約3.8%向上させ、ImageNetの分類において、線形評価と限定されたラベルを用いた半教師付き設定で、最先端の性能を達成することを実証する (iii) 我々の手法は、12の伝達学習タスクのうち8つのタスクにおいて、自己組織化された特徴量、さらには(ImageNetの教師付き事前学習を介して学習された)教師付き特徴量を用いた最先端の手法を上回る性能を示した。これにより、自己教師付き手法のデータ補強戦略への依存度を下げることができます。

e4exp commented 3 years ago

image

e4exp commented 3 years ago
  1. 結論

我々は、コントラスト自己教師付き学習において、ポジティブの多様性を高めるアプローチを提示する。 これは、サポートセットからの最近傍傍をポジティブとして使用することで実現している。 NNCLRは複数のデータセットで最先端の性能を達成した。 また、我々の手法は、データ補強技術への依存度を大幅に低減する。