aifield / CV_News

Computer Vision系勉強会用のリポジトリです。
3 stars 1 forks source link

#7 A Simple Framework for Contrastive Learning of Visual Representations #7

Open mihara-shoko opened 2 years ago

mihara-shoko commented 2 years ago

論文情報

一言説明

自己教師あり学習の話

先行研究との比較

Fig1

対照学習とは?

自己教師あり学習の手法の一つ。似ている画像の特徴表現は近くなるように、異なる画像の特徴表現は遠くなるように学習を行う。似ている画像を正例、異なる画像を負例とする。類似度はコサイン類似度を使用。

対照学習で特徴表現を学習した後に、ファインチューニングし、目的のタスク(分類、物体検出)に使用する。

sup1

(Jaiswal et al. 2020 arxiv Fig. 17)

メモリーバンクとは?

特徴表現を記憶しておくもの。メモリーバンクの更新に要する計算量は膨大。

技術や手法のキモ

フレームワーク

Fig2

NT-Xent

li,j: 正例ペアi, jの損失  sim(u, v): コサイン類似度   T: 温度パラメーター

アルゴリズム

algorithm1

実験

実験の設定

データオーグメンテーションの種類

Fig.4に示す手法を使用した。 Fig4

それぞれの手法の効果を明らかにするために、1種類または2種類の手法を用いて学習し、精度を評価した(Fig.5)。1種類の手法しか使用しなかった場合は、良い特徴表現が学習できなかった。2種の手法を組み合わせると改善した。特に、random dropとrandom color distortionを行った時に良い結果が得られた。

Fig5

random cropのみを使用すると、1つの画像からcropされた画像は色彩分布が似ていた(Fig.6)。 random cropのみだと色彩分布が特徴として利用されやすいため、random cropとcolor distortionを組み合わせることは重要。

Fig6

エンコーダーとヘッドのアークテクチャー

モデルの大きさ

モデルの深さまたは幅が増えると精度が向上した(Fig. 7)。教師あり学習モデルとの精度の差は、パラメーターが大きくなるほど小さくなった。パラメーターが多い場合は教師あり学習の代わりに使えそう。

Fig7

プロジェクションヘッド

プロジェクションヘッドの構造を以下のように変えて精度を比較した(Fig. 8)。

  1. identity mapping(そのまま)
  2. linear projection(いくつかの先行研究で使われている)
  3. nonlinear projection

sup2

出力の次元に関係なくnonlinear projectionの方がlinear projectionよりも精度が良かった。nonlinear projectionを使用した場合、プロジェクションヘッドの出力(z = g(h))よりもエンコーダーの出力(h)を用いた方が精度が良かった(これを示す図はどこ?)。これより、プロジェクションヘッドの前の隠れ層は後の層よりも良い特徴表現ができていると言える。

Fig8

z = g(h)はデータオーグメンテーションによって不変となるように学習される(オーグメンテーションの違いが識別できない)。よって、gは下流のタスクに有効な情報を排除してしまう可能性がある。情報が失われるのを補填するために、hに多くの情報が保持される可能性がある。 この仮説を検証するために、オーグメンテーションを予測するためのMLPをhかg(h)の上につけて学習し、精度を比較した。g(h)とhが同じ次元(2048)となるようにした。 hは適用されたデータオーグメンテーションの情報を含んでいるが、g(h)では失われていることがわかった(Table 3)。

Table3

バッチサイズ

エポック数を変えて学習したときのバッチサイズの影響を調べた(Fig. 9)。エポック数が小さい場合、バッチサイズが大きい方が著しく精度が高かった。エポック数が増えると、バッチサイズの影響は小さくなった。教師あり学習とは違い、対照学習ではバッチサイズが大きいほど負例が増え、収束の促進につながったと言える。エポック数が増えると負例も増えるため、エポック数が多いほど精度が改善されたと言える。

Fig9

SoTAとの比較

線形評価

ImageNetで特徴表現を学習 → ImageNetで精度評価

本手法と先行研究を比較した(Table 6)。本手法で使用した標準的なアーキテクチャの方が先行研究でデザインされたアーキテクチャよりも精度が高かった。ResNet-50(4x)を使用した場合は、ResNet-50で教師あり学習を行った場合の精度を上回った(Fig. 1)。

Table6

半教師あり学習

ラベル付けされたImageNetデータセット(ILSVRC-12)の1%または10%を使い、半教師あり学習を行った(ファインチューニング)。

ImageNetで特徴表現を学習 → ImageNetでファインチューニング → ImageNetで精度評価

本手法と先行研究を比較した(Table 7)。1%のラベルを使った場合, 10%のラベルを使った場合の両方で、本手法の方がSoTA(CPC v2)の精度を上回った。

Table7

転移学習

12のデータセットを使い、エンコーダーの重みを固定した(線形評価)場合とファインチューニングした時の結果を比較した(Table 8)。

ファインチューニングした場合、本手法で自己教師あり学習したモデルは5つのデータセットで教師あり学習の精度を上回った(Table 8 赤枠)。教師あり学習は2つのデータセット(ペット、フラワー)のみで優位だった。他の5つのデータセットでは統計的な差はなかった。

Table8_rev

まとめ

対照学習のシンプルなフレームワークを考案した。本手法は自己教師あり学習、半教師あり学習、転移学習の手法を著しく改善した。

読んだ所感

感想

理解できなかった部分

補足

SoTA

sup3

参考・引用