e4exp / paper_manager_abstract

0 stars 0 forks source link

When Does Contrastive Visual Representation Learning Work? #472

Open e4exp opened 3 years ago

e4exp commented 3 years ago

最近の自己教師付き表現学習技術により,ImageNet分類における教師付き学習と教師なし学習の間のギャップがほぼ解消された. ImageNet上での事前学習の特殊性は比較的よく理解されていますが、この成功を他のデータセットで再現するための広く受け入れられたベストプラクティスはまだありません。 この方向への第一歩として、我々は4つの多様な大規模データセットで対照的な自己教師付き学習を研究する。 データ量、データ領域、データ品質、タスク粒度の観点から、自己教師付き学習を成功させるための必要条件について新たな知見を得ることができた。 その結果、次のような知見が得られました。

(i) 50万枚を超える事前学習データを追加しても、その効果はわずかであること、 (ii) 別の領域の事前学習画像を追加しても、より一般的な表現にはならないこと、 (iii) 破損した事前学習画像は、教師付き事前学習と自己教師付き事前学習に異なる影響を与えること、 (iv) 細かい視覚分類タスクでは、コントラスト学習は教師付き学習に大きく遅れをとること、などである。

e4exp commented 3 years ago
  1. はじめに

近年の自己教師付き学習の発展により,下流の課題において,完全に教師付きのネットワークから生成された表現に匹敵する視覚表現が得られるようになった[15]. 学習時に大量のラベルを必要としないということは,現在,教師を得ることが困難であったり,コストがかかったりする領域の課題に取り組む能力を向上させる可能性があるからである. しかし,一部の例外を除いて,現在の最先端のアプローチの大部分は,ImageNet [34]のような標準的なデータセットを用いて開発・評価されています. そのため、これらの手法を他のデータセットに適用した場合に、どの程度の効果があるのかを十分に理解していないのが現状である。 本論文では,「自己教師付き対比表現学習法は,どのような条件下で「良い」視覚表現を学習するのか? 特に、以下の質問に答えようとしている。

(i) データ量の影響は何か? 具体的には,事前学習に必要なラベルなし画像の数と,その数を増やしたり減らしたりした場合にどうなるのか? 線形分類器の学習や、下流のタスクのエンド・ツー・エンドの微調整には、どの程度のラベル付きデータが必要か? どのような場合に、完全な監視下で学習されたものよりも自己教師付きの特徴が優れているのか?

(ii) 前処理領域の影響は何か? ImageNetでの自己教師付き手法の学習から得られた知見は,精選されていない,あるいは異なる視覚的特性を持つ他のデータセットでの学習に一般化するか? あるドメインで訓練された自己教師付き表現は、他のドメインにどの程度移行できるか?

(iii) データの質の影響は何ですか? 自己教師法は、低解像度、圧縮アーチファクト、ノイズなどの学習時の画像の破損に対してどの程度頑健か? 破損した画像で事前学習を行うと、破損していない画像での下流のパフォーマンスが低下するのか?

(iv) タスクの粒度の影響は何ですか? 自己教師付き学習は、「簡単な」分類タスクにのみ有効な特徴になるのか、それとも、より困難で細かい視覚的概念にも有効なのか?

我々は、4つの多様な大規模ビジュアルデータセットを対象とした広範な定量的評価を通じて、上記の質問(図1参照)に取り組みました。 その結果、以下のような興味深い見解と提言が得られました。

e4exp commented 3 years ago
  1. 結論

我々は、「対比的な視覚表現の学習はどのような場合に有効なのか」という疑問を解決するために、包括的な一連の実験を行った。 セクション4.1では,50万枚以下の事前学習画像があれば,深刻な収穫逓減に陥るが,最良の教師付き表現であっても,分類器の学習のために何十万枚ものラベル付き画像がなければ,ピーク時の教師付きパフォーマンスよりもはるかに劣ることがわかった. セクション4.2では,異なるドメインからの100万枚の画像を用いて自己教師付き事前学習を行うと,非常に異なる能力を持つ表現が得られること,また,異なるデータセットを組み合わせる単純な方法では大きな利益は得られないことを示した. 4.3節では、コントラスト学習には画像の解像度が重要であることを示し、さらに広い意味では、画像の破損が自己教師付き表現を使い物にならないほど劣化させるものもあれば、ほとんど影響を与えないものもあることを示しました。 最後に,細かい分類を行う際には,教師付きの事前学習が非常に有利であることがわかりました(セクション4.4). これらの実験により、現在の自己教師付き学習アルゴリズムを改善するために、さらなる研究が必要ないくつかの分野が浮き彫りになりました。 これらの分野のほとんどは、ImageNetにおけるトップ1精度という伝統的な指標には反映されていません。

限界 本研究では、SimCLRのみに焦点を当てています。 それは、SimCLRが、複雑なアーキテクチャを追加することなく、最新のコントラスト学習法の本質を反映しているからです。 SimCLRは最先端の代表的な手法であると考えていますが、他の最新の自己教師付き手法でこれらの結果を検証することは重要です。 また、ここでは分類タスクのみを考慮しているため、これらの結果がセグメンテーション[43]や検出[50]などのタスクにどのように反映されるかを理解するには、さらなる研究が必要です。