#7 A Simple Framework for Contrastive Learning of Visual Representations

論文情報

タイトル： A Simple Framework for Contrastive Learning of Visual Representations
学会： arXiv
発表年： 2020
URL： https://arxiv.org/pdf/2002.05709.pdf

一言説明

自己教師あり学習の話

データオーグメンテーションとしてrandom cropとcolor distortionを使うと良い特徴表現を学習できる
特徴量を抽出した後に、非線形変換すると良い特徴表現を学習できる
バッチサイズが大きくてepoch数が大きい場合に教師あり学習の代わりとして使えそう
ImageNet ILSVRC-2012データセットを使用した自己教師あり学習、半教師あり学習でSoTA達成

先行研究との比較

教師なしで効果的な画像の特徴表現を学習することは長年の課題となっている。
教師なし学習の手法には、生成的アプローチと識別的アプローチがある。生成的アプローチは計算量が膨大であることが問題となっている。識別的アプローチではpretext task(特徴表現を学習するためのタスク)を経験則に基づいてデザインする必要があり、学習した表現の汎化性が低いことが問題となっている。
対照学習をベースとした識別的な手法が、最近SoTAを達成した。
著者らはSimCLRという対照学習のためのシンプルなフレームワークを考案した。SimCLRは先行研究よりも精度が良いだけでなく、シンプルで、特別なアーキテクチャやメモリーバンクを必要としない。

Fig1

対照学習とは？

自己教師あり学習の手法の一つ。似ている画像の特徴表現は近くなるように、異なる画像の特徴表現は遠くなるように学習を行う。似ている画像を正例、異なる画像を負例とする。類似度はコサイン類似度を使用。

対照学習で特徴表現を学習した後に、ファインチューニングし、目的のタスク（分類、物体検出）に使用する。

sup1

(Jaiswal et al. 2020 arxiv Fig. 17)

メモリーバンクとは？

特徴表現を記憶しておくもの。メモリーバンクの更新に要する計算量は膨大。

技術や手法のキモ

フレームワーク

Fig2

データオーグメンテンションモジュール
- 元のデータをランダムに変換し、2つの画像を生成する（正例ペア）。
ベースエンコーダー　f（・）
- オーグメンテーションした画像から特徴表現を抽出する。ResNetを使用した。
プロジェクションヘッド g（・）
- 得られた特徴表現を任意の空間にマップする。多層パーセプトロンを使用した。
対照損失関数
- normalized temperature-scaled cross entropy loss(NT-Xent)

NT-Xent

li,j: 正例ペアi, jの損失　　sim(u, v): コサイン類似度　　　T: 温度パラメーター

アルゴリズム

algorithm1

実験

実験の設定

データセット　　
- ImageNet ILSVRC-2012
評価
- 重みを固定したベースネットワークのトップに分類器をつけて学習を行い、分類の正解率を評価指標とした。
- top-k accuracy: モデルが予測した分類のうち、確率の高いもの上位k位までに正解がある確率。
デフォルトの設定
- データオーグメンテーション: random crop＋resize, color distortions, Gaussian blur
- ベースエンコーダー: ResNet-50
- プロジェクションヘッド: 2層パーセプトロン
- 損失: NT-Xent
- 最適化関数: LARS
- バッチサイズ: 4096
- エポック: 100
実験したこと(一部をピックアップした)
- データオーグメンテーションの種類
- エンコーダーとヘッドのアーキテクチャー
- バッチサイズ
- SoTAとの比較

データオーグメンテーションの種類

Fig.4に示す手法を使用した。 Fig4

それぞれの手法の効果を明らかにするために、1種類または2種類の手法を用いて学習し、精度を評価した（Fig.5）。1種類の手法しか使用しなかった場合は、良い特徴表現が学習できなかった。2種の手法を組み合わせると改善した。特に、random dropとrandom color distortionを行った時に良い結果が得られた。

Fig5

random cropのみを使用すると、1つの画像からcropされた画像は色彩分布が似ていた(Fig.6)。 random cropのみだと色彩分布が特徴として利用されやすいため、random cropとcolor distortionを組み合わせることは重要。

Fig6

エンコーダーとヘッドのアークテクチャー

モデルの大きさ

モデルの深さまたは幅が増えると精度が向上した（Fig. 7）。教師あり学習モデルとの精度の差は、パラメーターが大きくなるほど小さくなった。パラメーターが多い場合は教師あり学習の代わりに使えそう。

Fig7

プロジェクションヘッド

プロジェクションヘッドの構造を以下のように変えて精度を比較した（Fig. 8）。

identity mapping（そのまま）
linear projection(いくつかの先行研究で使われている)
nonlinear projection

sup2

出力の次元に関係なくnonlinear projectionの方がlinear projectionよりも精度が良かった。nonlinear projectionを使用した場合、プロジェクションヘッドの出力（z = g(h)）よりもエンコーダーの出力(h)を用いた方が精度が良かった（これを示す図はどこ？）。これより、プロジェクションヘッドの前の隠れ層は後の層よりも良い特徴表現ができていると言える。

Fig8

z = g(h)はデータオーグメンテーションによって不変となるように学習される（オーグメンテーションの違いが識別できない）。よって、gは下流のタスクに有効な情報を排除してしまう可能性がある。情報が失われるのを補填するために、hに多くの情報が保持される可能性がある。この仮説を検証するために、オーグメンテーションを予測するためのMLPをhかg(h)の上につけて学習し、精度を比較した。g(h)とhが同じ次元(2048)となるようにした。 hは適用されたデータオーグメンテーションの情報を含んでいるが、g(h)では失われていることがわかった(Table 3)。

Table3

バッチサイズ

エポック数を変えて学習したときのバッチサイズの影響を調べた(Fig. 9)。エポック数が小さい場合、バッチサイズが大きい方が著しく精度が高かった。エポック数が増えると、バッチサイズの影響は小さくなった。教師あり学習とは違い、対照学習ではバッチサイズが大きいほど負例が増え、収束の促進につながったと言える。エポック数が増えると負例も増えるため、エポック数が多いほど精度が改善されたと言える。

Fig9

SoTAとの比較

線形評価

ImageNetで特徴表現を学習 → ImageNetで精度評価

本手法と先行研究を比較した(Table 6)。本手法で使用した標準的なアーキテクチャの方が先行研究でデザインされたアーキテクチャよりも精度が高かった。ResNet-50(4x)を使用した場合は、ResNet-50で教師あり学習を行った場合の精度を上回った(Fig. 1)。

Table6

半教師あり学習

ラベル付けされたImageNetデータセット(ILSVRC-12)の1%または10%を使い、半教師あり学習を行った（ファインチューニング）。

ImageNetで特徴表現を学習 → ImageNetでファインチューニング → ImageNetで精度評価

本手法と先行研究を比較した(Table 7)。1%のラベルを使った場合, 10%のラベルを使った場合の両方で、本手法の方がSoTA（CPC v2）の精度を上回った。

Table7

転移学習

12のデータセットを使い、エンコーダーの重みを固定した(線形評価)場合とファインチューニングした時の結果を比較した(Table 8)。

線形評価： ImageNetで特徴表現を学習 → 各データセットで精度評価
ファインチューニング: ImageNetで特徴表現を学習 → 各データセットでファインチューニング → 各データセットで精度評価

ファインチューニングした場合、本手法で自己教師あり学習したモデルは5つのデータセットで教師あり学習の精度を上回った(Table 8 赤枠)。教師あり学習は2つのデータセット（ペット、フラワー）のみで優位だった。他の5つのデータセットでは統計的な差はなかった。

Table8＿rev

まとめ

対照学習のシンプルなフレームワークを考案した。本手法は自己教師あり学習、半教師あり学習、転移学習の手法を著しく改善した。

読んだ所感

感想

自己教師あり学習を勉強するいい機会になった
random crop → color distortionは教師あり学習でも有効そう
大きいバッチサイズで学習できる環境があれば使えそう

理解できなかった部分

Fig. 3の意味、シンプルにできた理由
global BNをやらないといけない理由
semi-hard negative mining

補足

SoTA

aifield / CV_News