SiT: Self-supervised vIsion Transformer

e4exp commented 3 years ago

https://arxiv.org/abs/2104.03602
2021

自己教師付き学習法は、近年、教師付き学習との差を縮めることに成功したことから、コンピュータビジョンの分野でますます注目を集めています。自然言語処理（NLP）では、自己教師付き学習と変換器はすでに選択されている手法です。最近の文献によると、トランスフォーマーはコンピュータビジョンでも人気が高まっているようです。これまでのところ、ビジョン変換器は、大規模な教師付きデータを用いて事前学習を行うか、教師ネットワークなどの何らかの共同教師を用いて事前学習を行うと、うまく機能することが示されている。これらの教師付き事前学習された視覚変換器は、最小限の変更で下流のタスクで非常に良い結果を得ることができる。本研究では、画像／視覚変換器を事前学習し、下流の分類タスクに使用するための自己教師付き学習のメリットを調査する。我々はSelf-supervised vIsion Transformers (SiT)を提案し、プレテキストモデルを得るためのいくつかの自己教師付き学習メカニズムについて議論する。 SiTのアーキテクチャの柔軟性により、オートエンコーダーとして使用することができ、複数の自己教師付きタスクをシームレスに扱うことができる。我々は、数百万枚の画像ではなく、数千枚の画像で構成される小規模なデータセットにおいて、事前に学習したSiTを下流の分類タスクのために微調整できることを示す。提案されたアプローチは，一般的なプロトコルを用いた標準的なデータセットで評価された．その結果、トランスフォーマーの強さと、自己教師付き学習への適性が実証された。我々は、既存の自己教師付き学習法を大差で凌駕した。また、SiTが数ショットの学習に適していることを確認し、さらに、SiTから学習した特徴量の上に線形分類器を学習するだけで、有用な表現を学習していることを示しました。事前トレーニング、微調整、および評価コードは、このhttpsのURLから入手できます。 https://github.com/Sara-Ahmed/SiT

e4exp commented 3 years ago

SiTアーキテクチャにデコーダを搭載し、トランスフォーマーの固有の特性を利用して、実質的に1つのリニアレイヤーで実装できることを実証しました。このトランスフォーマーベースのオートエンコーダーは、CNNベースのエンコーダー／デコーダー・アーキテクチャーに一般的に存在するデコーダー・ブロック全体を必要としません。
マルチタスク学習をサポートする自動符号化変換器の自然な能力を利用して、再構成（画像の塗り替え）、回転分類、制約損失を共同で最適化する強力な自己教師付きフレームワークを開発した。
提案したフレームワークの有効性を、線形評価、ドメイン転送、ファインチューニングなどの異なる評価プロトコルを用いて、標準的なベンチマークで実証した。
その結果、様々なデータセットにおいて、従来の最先端の結果を13.53%もの大差で上回ることができた。

e4exp commented 3 years ago

5 おわりに

本研究では，教師なしのデータを用いて学習した自己教師付き画像変換器を提示し，事前に学習したモデルを下流の分類タスクのための微調整の初期化として使用した．私たちは、自動符号化器として変換器を使用することを提案しました。これは、（変換器のアーキテクチャのおかげで）出力に単一の線形層を使用することで実現可能です。我々は、再構成損失に加えて異なる損失関数を組み合わせるのに特に適しているという、トランスフォーマー・アーキテクチャの魅力的な特性を活用しました。さらに，トークンごとの損失を追加し，再構成損失に加えて回転損失とコントラスト損失を組み合わせました。提案されたSiTは、最先端の自己教師付き手法を大きなマージンで上回りました。この研究では、下流のタスクとして画像分類に焦点を当てました。我々は、SiTがセグメンテーションや検出のような他の多くのタスクに適していると信じているが、この推測は今後の調査に委ねられる。

e4exp / paper_manager_abstract

SiT: Self-supervised vIsion Transformer #350