e4exp / paper_manager_abstract

0 stars 0 forks source link

VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning #464

Open e4exp opened 3 years ago

e4exp commented 3 years ago

最近の自己教師付き画像表現学習法は、同じ画像の異なるビューからの埋め込みベクトル間の一致度を最大化することに基づいている。 エンコーダが一定のベクトルを出力している場合には、自明な解が得られる。 この崩壊問題は、学習アーキテクチャにおける暗黙のバイアスによって回避されることが多いが、そのバイアスは明確な正当性や解釈を持たないことが多い。 本論文では、VICReg (Variance-Invariance-Covariance Regularization)を紹介する。 これは、各次元の埋め込みの分散に対する単純な正則化項を用いて、崩壊問題を明示的に回避する手法である。 VICRegは、この分散項を、冗長性削減と共分散正則化に基づいたデコリレーションのメカニズムと組み合わせることで、いくつかの下流のタスクにおいて、最新の技術と同等の結果を達成した。 さらに、我々の新しい分散項を他の手法に組み込むことで、学習を安定化させ、性能を向上させることができることを示す。

e4exp commented 3 years ago

1 はじめに

自己教師付き表現学習は,ここ数年で大きな進歩を遂げており,多くのダウンストリームタスクにおいて,教師付きベースラインの性能にほぼ到達している[2, 33, 22, 40, 7, 21, 11, 49]. 最近のいくつかのアプローチは,同一画像の異なるビュー間の一致度を最大化することで学習される,サイアムネットワークを用いた共同埋め込み学習[4]に依存している. 対照的な手法 [25, 22, 8] は、異なる画像の表現が互いに異なることを明示的に促す否定的な用語を使用している。 これらの手法では、メモリバンク[22]または現在のバッチ[8]からサンプリングできる否定的なペアの高価なマイニング手順に依存し、その後、ペア間の直接比較を行います。 崩壊は明示的に防止されていますが,これらの方法はコストが高く,大規模なバッチサイズやメモリバンクを必要とします. 一方、クラスタリングに基づくアプローチ[5, 7]では、表現が異なるクラスタに属するように強制することで、崩壊を本質的に防ぐことができるが、クラスタレベルでの負の比較が必要となる。 他の成功した手法は、解の崩壊に対する明示的な戦略に依存しておらず[21, 11]、負の項やクラスタの割り当てなしに高品質の表現を生成することができる。 これらの手法は、非対称アーキテクチャと2つのサイアムネットワークの重みの不一致に依存しており、これはモメンタムエンコーダー[21, 37]またはストップグラジエント演算[11]を用いることで実現できる。 これらの方法は効率的ですが,よく理解されておらず,解釈が難しいアーキテクチャのトリックに依存しています. また,[41]では,非対称な手法でどのように崩壊が回避されるかについて,理論的な分析といくつかの知見を提供していますが,完全なダイナミクスを理解するにはほど遠く,これらの手法は他の自己監視学習のセットアップでは機能しない可能性があります. 最後に、冗長性削減法[15, 49]は、表現が対応する入力に対して最大限の情報を持つように、表現の次元をデコリレーションすることで崩壊を回避する。 これは,特徴量の相互相関行列を恒等行 列に近づけることで達成される[49],あるいは,特徴量を白色化して単位球上に散乱させることで達成される[15]. これらの方法はうまく機能し、意味のある表現を学習することができるが、一方で特徴を装飾し、その分散を維持することができ、すべては1つのユニークな目的関数を用いている。 我々の研究では、これらの目標を3つの別々の目的関数に分解し、それぞれが明確な解釈を持つことを提案する。

VICReg (Variance-Invariance-Covariance Regularization) は、明確な目的と解釈を持った分散、不変、共分散という3つのシンプルな原理に基づいた、画像表現を学習するための新しい自己教師付きアルゴリズムです。 分散原理は、各次元に沿った埋め込みの分散を独立して制約するもので、崩壊に対するシンプルかつ効果的な方法です。 より正確には、我々は、埋め込みのバッチ次元に沿って計算された標準偏差が固定された目標に到達するように制約するヒンジ損失を使用します。 対照的な手法とは異なり、負のペアは必要とされず、埋め込み同士を直接比較することなく、暗黙のうちに互いに異なることが奨励される。 不変性原理では、標準的な平均二乗ユークリッド距離を用いて、画像の複数のビューに対する不変性を学習する。

最後に、共分散原理はBarlow Twins[49]の共分散基準を利用しており、次元崩壊を避けて情報を次元間に分散させる目的で、学習された表現の異なる次元をデコリレーションする。 この基準は、埋め込みの共分散行列の非対角係数にペナルティを課すものである。 SimCLR [8]では、負のペアは、バッチによって与えられ、これは、バッチサイズに強い依存性があることを意味する。 我々の手法では,そのような依存性は見られなかった. Barlow Twin [49]と同様に、siamese weight discrepancyも必要なく、我々の提案するアーキテクチャは対称的であり、SimSiam [11]のstop-gradient operation、BYOL [21]のmomentum encoder、または、これらの手法で使用されるpredictorなしで動作する。 表現学習のための以前の自己教師付き手法[21, 11, 7, 49, 15]とは異なり,損失関数に埋め込みの正規化を必要としないため,手法をシンプルに保つことができる. 我々は、ImageNet [13]の線形および半教師付き評価プロトコル、その他の分類、検出、およびインスタンス・セグメンテーション・タスクを含む多くの下流タスクにおいて、VICRegで学習された表現を評価することで、我々のアプローチの有効性を実証する。 さらに、我々の分散正則化を、より複雑なアーキテクチャや他の自己教師付き表現学習法に組み込むことで、学習の安定性が向上し、下流のタスクでの性能が向上することを示す。 より一般的には、VICRegは自己教師付き共同埋め込み学習の崩壊を防ぐためのシンプルかつ効果的で解釈可能な手法であることを示している。

e4exp commented 3 years ago

VICRegは、自己教師付き画像表現学習のシンプルなアプローチであり、問題を3つの異なる原理に分解し、異なるビューに対する不変性を不変性項で学習し、表現の崩壊を分散正則化項で回避し、共分散正則化項で表現の異なる次元に情報を拡散する。

VICRegは、下流の多くのタスクにおいて、最先端の技術と同等の結果を達成し、非対照的な自己教師付き学習の限界を押し広げています。 VICRegの計算量とメモリ使用量は、各処理バッチの共分散行列の計算によって決まりますが、この計算量は投影ベクトルの次元の二次関数となります。 49]とVICRegの実験的分析では、投影ベクトルの次元を増やすことで性能が大幅に向上することが示されており、共分散行列の完全な計算に基づかない他の冗長性削減手法の必要性が動機付けられています。 今後は、この二次的なボトルネックを、さまざまな近似技術や、高次の統計に基づいた全く新しい冗長性削減手法でどのように克服できるかを検討していきます。