データオーグメンテーション: random crop+resize, color distortions, Gaussian blur
ベースエンコーダー: ResNet-50
プロジェクションヘッド: 2層パーセプトロン
損失: NT-Xent
最適化関数: LARS
バッチサイズ: 4096
エポック: 100
実験したこと(一部をピックアップした)
データオーグメンテーションの種類
エンコーダーとヘッドのアーキテクチャー
バッチサイズ
SoTAとの比較
データオーグメンテーションの種類
Fig.4に示す手法を使用した。
それぞれの手法の効果を明らかにするために、1種類または2種類の手法を用いて学習し、精度を評価した(Fig.5)。1種類の手法しか使用しなかった場合は、良い特徴表現が学習できなかった。2種の手法を組み合わせると改善した。特に、random dropとrandom color distortionを行った時に良い結果が得られた。
random cropのみを使用すると、1つの画像からcropされた画像は色彩分布が似ていた(Fig.6)。
random cropのみだと色彩分布が特徴として利用されやすいため、random cropとcolor distortionを組み合わせることは重要。
論文情報
一言説明
自己教師あり学習の話
先行研究との比較
対照学習とは?
自己教師あり学習の手法の一つ。似ている画像の特徴表現は近くなるように、異なる画像の特徴表現は遠くなるように学習を行う。似ている画像を正例、異なる画像を負例とする。類似度はコサイン類似度を使用。
対照学習で特徴表現を学習した後に、ファインチューニングし、目的のタスク(分類、物体検出)に使用する。
(Jaiswal et al. 2020 arxiv Fig. 17)
メモリーバンクとは?
特徴表現を記憶しておくもの。メモリーバンクの更新に要する計算量は膨大。
技術や手法のキモ
フレームワーク
li,j: 正例ペアi, jの損失 sim(u, v): コサイン類似度 T: 温度パラメーター
アルゴリズム
実験
実験の設定
データセット
評価
デフォルトの設定
実験したこと(一部をピックアップした)
データオーグメンテーションの種類
Fig.4に示す手法を使用した。
それぞれの手法の効果を明らかにするために、1種類または2種類の手法を用いて学習し、精度を評価した(Fig.5)。1種類の手法しか使用しなかった場合は、良い特徴表現が学習できなかった。2種の手法を組み合わせると改善した。特に、random dropとrandom color distortionを行った時に良い結果が得られた。
random cropのみを使用すると、1つの画像からcropされた画像は色彩分布が似ていた(Fig.6)。 random cropのみだと色彩分布が特徴として利用されやすいため、random cropとcolor distortionを組み合わせることは重要。
エンコーダーとヘッドのアークテクチャー
モデルの大きさ
モデルの深さまたは幅が増えると精度が向上した(Fig. 7)。教師あり学習モデルとの精度の差は、パラメーターが大きくなるほど小さくなった。パラメーターが多い場合は教師あり学習の代わりに使えそう。
プロジェクションヘッド
プロジェクションヘッドの構造を以下のように変えて精度を比較した(Fig. 8)。
出力の次元に関係なくnonlinear projectionの方がlinear projectionよりも精度が良かった。nonlinear projectionを使用した場合、プロジェクションヘッドの出力(z = g(h))よりもエンコーダーの出力(h)を用いた方が精度が良かった(これを示す図はどこ?)。これより、プロジェクションヘッドの前の隠れ層は後の層よりも良い特徴表現ができていると言える。
z = g(h)はデータオーグメンテーションによって不変となるように学習される(オーグメンテーションの違いが識別できない)。よって、gは下流のタスクに有効な情報を排除してしまう可能性がある。情報が失われるのを補填するために、hに多くの情報が保持される可能性がある。 この仮説を検証するために、オーグメンテーションを予測するためのMLPをhかg(h)の上につけて学習し、精度を比較した。g(h)とhが同じ次元(2048)となるようにした。 hは適用されたデータオーグメンテーションの情報を含んでいるが、g(h)では失われていることがわかった(Table 3)。
バッチサイズ
エポック数を変えて学習したときのバッチサイズの影響を調べた(Fig. 9)。エポック数が小さい場合、バッチサイズが大きい方が著しく精度が高かった。エポック数が増えると、バッチサイズの影響は小さくなった。教師あり学習とは違い、対照学習ではバッチサイズが大きいほど負例が増え、収束の促進につながったと言える。エポック数が増えると負例も増えるため、エポック数が多いほど精度が改善されたと言える。
SoTAとの比較
線形評価
ImageNetで特徴表現を学習 → ImageNetで精度評価
本手法と先行研究を比較した(Table 6)。本手法で使用した標準的なアーキテクチャの方が先行研究でデザインされたアーキテクチャよりも精度が高かった。ResNet-50(4x)を使用した場合は、ResNet-50で教師あり学習を行った場合の精度を上回った(Fig. 1)。
半教師あり学習
ラベル付けされたImageNetデータセット(ILSVRC-12)の1%または10%を使い、半教師あり学習を行った(ファインチューニング)。
ImageNetで特徴表現を学習 → ImageNetでファインチューニング → ImageNetで精度評価
本手法と先行研究を比較した(Table 7)。1%のラベルを使った場合, 10%のラベルを使った場合の両方で、本手法の方がSoTA(CPC v2)の精度を上回った。
転移学習
12のデータセットを使い、エンコーダーの重みを固定した(線形評価)場合とファインチューニングした時の結果を比較した(Table 8)。
ファインチューニングした場合、本手法で自己教師あり学習したモデルは5つのデータセットで教師あり学習の精度を上回った(Table 8 赤枠)。教師あり学習は2つのデータセット(ペット、フラワー)のみで優位だった。他の5つのデータセットでは統計的な差はなかった。
まとめ
対照学習のシンプルなフレームワークを考案した。本手法は自己教師あり学習、半教師あり学習、転移学習の手法を著しく改善した。
読んだ所感
感想
理解できなかった部分
補足
SoTA
参考・引用