CLIP-Adapter: Better Vision-Language Models with Feature Adapters

e4exp commented 3 years ago

https://arxiv.org/abs/2110.04544
2021

大規模な対照的な視覚言語の事前学習により、視覚表現の学習に大きな進歩が見られました。固定されたラベルのセットで訓練された従来の視覚システムとは異なり、オープンボキャブラリーの設定で画像と生のテキストを合わせることを直接学習するという新しいパラダイムが導入されました。下流のタスクでは、慎重に選択されたテキストプロンプトが採用され、ゼロショットの予測を行います。～非自明なプロンプトエンジニアリングを回避するために、少数ショットのトレーニング例でタスク固有のプロンプトとして連続ベクトルを学習するコンテキスト最適化が提案されています。～本論文では、プロンプトチューニング以外にも、より優れた視覚言語モデルを実現するための別の道があることを示します。～プロンプトチューニングがテキスト入力に対するものであるのに対し、CLIP-Adapterは、視覚または言語のいずれかの枝の特徴アダプタで微調整を行うことを提案します。具体的には、CLIP-Adapterは、新しい特徴を学習するために追加のボトルネック層を採用し、元の事前学習された特徴と残差スタイルの特徴のブレンドを行います。様々な視覚分類タスクにおける実験と広範なアブレーション研究により、本アプローチの有効性が実証されています。

e4exp commented 3 years ago

1 はじめに

視覚理解タスクとして、分類（Krizhevskyら、2012年、Heら、2016年、Howardら、2017年、Dosovitskiyら、2021年、Touvronら、2021年、Gaoら、2021a、Maoら、2021年。2021）、物体検出（Ren et al., 2015; Carion et al., 2020; Gao et al., 2021b）、セマンティックセグメンテーション（Long et al., 2015）は、より優れたアーキテクチャ設計と大規模な高品質データセットに基づいて、大幅に改善されています。残念ながら、すべての視覚タスクのために大規模な高品質データセットを収集することは手間がかかり、スケールアップするには費用がかかりすぎます。この問題を解決するために、ImageNetのような大規模データセットで事前学習を行い（Krizhevsky et al.2012）、その後、さまざまな下流のタスクで微調整を行うという「事前学習-微調整」パラダイムが、視覚領域で広く採用されている。しかし、このようなアプローチでは、膨大な量のアノテーションを必要とし、また、多くの下流タスクで微調整を行う必要があります。最近では、大規模なノイズを含む画像とテキストのペアを用いたコントラスト学習を利用して、視覚タスクを解決するCLIP (Contrastive Language-Image Pretraining) (Radford et al., 2021)が提案されています。これは、視覚カテゴリをプロンプトとして適切な手作りのテンプレートに入れることで、アノテーションなしで様々な視覚分類タスクで感動的な性能を達成する（すなわち、ゼロショット転送）。プロンプトに基づくゼロショット転送学習は有望な性能を示しましたが、良いプロンプトを設計することは、かなりの時間とドメイン知識を必要とする工学的問題のままです。この問題を解決するために、Context Optimization (CoOp) (Zhou et al., 2021)は、慎重に選択されたハードプロンプトを置き換えるために、数ショットの例を用いて連続的なソフトプロンプトを学習することを提案した。 CoOpは、ゼロショットCLIPとリニアプローブCLIPの両方の設定に比べて、数ショットの分類に大きな改善をもたらし、大規模な事前学習された視覚言語モデル上でのプロンプトチューニングの可能性を示した。

本論文では、プロンプトチューニングの代わりに、特徴アダプタを用いて視覚言語モデルをよりよく適応させるための異なるアプローチを提案する。ソフトなプロンプト最適化を行うCoOpとは異なり、我々は単純に軽量な追加機能アダプタの微調整を行う。 CLIPではパラメータが過剰に設定されており、十分な学習例がないため、素朴な微調整を行うと、特定のデータセットでオーバーフィッティングが発生したり、CLIPのすべての層で順方向および逆方向の伝搬が発生するため、学習プロセスが非常に遅くなってしまいます。パラメーター効率の良い伝達学習におけるアダプターモジュール（Houlsby et al., 2019）に触発されて，CLIPのすべてのパラメーターを最適化する代わりに，少数の追加ウェイトのみを微調整するCLIP-Adapterを提案する．

CLIPAdapterは，軽量ボトルネックアーキテクチャを採用し，パラメータ数を減らすことで，少数ショット学習の潜在的なオーバーフィッティング問題を防ぐ．一方，CLIP-Adapterは，Houlsbyら（2019）とは2つの重要な点で異なる． CLIP-Adapterは、視覚または言語のバックボーンの最後の層に続いて、2つの追加の線形層を追加するだけです。対照的に、オリジナルのアダプターモジュールは、言語バックボーンのすべての層に挿入されます。さらに、CLIP-Adapterは、オリジナルのゼロショットのビジュアルや言語エンベッディングと、それに対応する微調整機能を残差接続によって混合する。このような「残差スタイルの混合」によって、CLIP-Adapterは、オリジナルのCLIPに格納されている知識と、数ショットの学習例に由来する新鮮な学習知識を同時に利用することができる。

全体として、我々の貢献は以下のようにまとめられる。

CLIP-Adapterは、残差型の特徴をブレンドすることで、微調整による効率的な少数ショットの伝達学習を実現することを提案する。
CoOpと比較して、CLIP-Adapterは非常にシンプルな設計でありながら、優れた数ショット分類性能を達成しており、CLIP-Adapterがプロンプトチューニングの有望な代替手段であることを示している。
また、CLIP-Adapterの特性を分析するために、11の分類データセットを用いて、CLIP-Adapterの大規模なアブレーション研究を行いました。

https://github.com/gaopengcuhk/CLIP-Adapter

e4exp commented 3 years ago

e4exp / paper_manager_abstract

CLIP-Adapter: Better Vision-Language Models with Feature Adapters #674

1 はじめに