e4exp / paper_manager_abstract

0 stars 0 forks source link

Multi-Task Self-Training for Learning General Representations #623

Open e4exp opened 2 years ago

e4exp commented 2 years ago

様々なタスクに特化したモデルの学習が急速に進んでいるにもかかわらず、多くのタスクに有効な単一の一般的なモデルを学習することは、コンピュータビジョンにとって依然として困難である。 ここでは、マルチタスク自己学習(MuST)を紹介します。 これは、独立した専門の教師モデル(例えば、分類に関するImageNetモデル)の知識を利用して、単一の一般的な生徒モデルを学習するものです。 我々のアプローチは3つのステップで構成されています。 まず,ラベル付きデータセットを用いて,専門の教師を個別に訓練します. 次に、ラベル付けされていないデータセットのラベル付けに特化した教師を使用して、マルチタスクの疑似ラベル付けデータセットを作成します。 最後に,異なるデータセット/タスクで訓練された教師モデルの疑似ラベルを含むデータセットを用いて,マルチタスク学習による学生モデルを訓練する. 学生モデルの特徴表現を、画像認識(分類、検出、セグメンテーション)や3D形状推定(深さと表面の法線推定)を含む6つの視覚タスクで評価します。 MuSTは、ラベルのないデータセットや部分的にラベルのついたデータセットでも拡張性があり、大規模なデータセットで学習した場合には、特化した教師付きモデルや自己教師付きモデルよりも優れています。 最後に、MuSTは何十億もの例で訓練されたすでに強力なチェックポイントを改善できることを示します。 これらの結果は、自己学習が、一般的な学習のためにラベル付きおよびラベルなしの学習データを集約するための有望な方向性であることを示唆しています。

e4exp commented 2 years ago

1. はじめに

視覚表現の学習は,コンピュータビジョンの中核的な問題である. 教師付きおよび自己教師付きの事前学習は,学習した特徴表現を下流のタスクに移す上で有望な結果を示している. 一般的に,モデルは,教師あり[30, 11]または教師なし[5, 17, 18]の目的で事前学習される. 教師付き学習からの転移学習が広く採用されているにもかかわらず、その特徴は必ずしも下流のタスクに役立つとは限らない。 例えば、Heらは、ImageNetの事前学習がCOCOインスタンスのセグメンテーションを改善できないことを発見しました[19]。 一方、Shaoらは、Objects365検出データセットから学習した特徴量が、COCOインスタンスのセグメンテーションを大きく改善することを示した[49]。 下流のターゲットタスクと一致する特化されたタスクで事前学習を行うことで、オブジェクト検出[34, 49]やセマンティックセグメンテーション[4]において、最高のパフォーマンスを得ることができる。 直感的には,複数のタスクで同時に良好な結果が得られるようにモデルを訓練することで,一般的な特徴を学習することが可能である. 最近のNLPの研究では、マルチタスク学習によるジェネラリストモデルの学習について有望な結果が出始めている[60, 9]。

コンピュータビジョンでは、マルチタスクモデルを学習する際の最大の課題は、データの収集とアノテーションにある。 COCO[37]のようなデータセットにもかかわらず、同じ画像データセットに対して多種多様なアノテーション(例:インスタンスセグメンテーション、人物のキーポイント、画像キャプション)を収集することは非常に困難です。 画像にラベルを付与する作業は時間がかかるため、画像数やタスク数に応じて作業を拡張することは困難です。 大規模なマルチタスクデータセットがないことは、コンピュータビジョンのマルチタスク学習の進歩を妨げている。 本研究では、この問題を解決するために、自己学習を用いることを検討する。 本研究では、コンピュータビジョンの大規模なマルチタスク特徴学習を可能にするために、疑似ラベリングを用いることを提案する。 Zophら[67]は,自己訓練が伝達学習の事前訓練をさらに改善し,事前訓練がランダムに初期化されたモデルを上回ることができない場合でも,自己訓練が機能することを観察した. 事前学習と自己学習の間のギャップは,自己学習が疑似ラベルからより良い特徴を学習できることを示唆している.

そこで,本研究では,疑似ラベルだけで良い特徴量を学習できるかどうかを検討する. COCOやObjects365などのデータセットを用いて教師モデルを学習し,ラベルのない画像に疑似ラベルを生成する。 図2はImageNetでの擬似ラベルの例です。 意外なことに,この擬似ラベルのみで学習した学生モデルは,特化した教師モデルの伝達学習性能をほぼ維持していることがわかります. この結果は、疑似ラベルが教師付きデータセットの知識を抽出するのに有効であることを示している。 したがって,擬似ラベルを用いて,複数の教師モデルから1つの学生モデルに知識を伝達し,表現学習を行うことができる.

我々は,異なるタスクやデータセットで学習した教師モデルから得られた情報をもとに,汎用的な学生モデルを学習するMuST(Multi-Task Self-Training)を提案する. 図1にアルゴリズムの概要を示します。 MuSTは3つのステップで構成されています。 まず、ラベル付きのデータセットを使って、専門の教師を個別に訓練します。 例えば、ある教師には深度予測のトレーニングを、別の教師には物体検出のトレーニングを行うことができます。 次に、特化された教師は、より大きなラベルなしのデータセットにラベルを付けるために使用され、マルチタスクの疑似ラベル付きデータセットを作成します。 例えば、これらの教師は、ImageNetデータセット上で、深度予測とオブジェクト検出を生成することができます。

最後に、異なるデータセット/タスクで学習した教師モデルの擬似ラベルを含むデータセットを、マルチタスク学習を用いて学生モデルの学習に使用します。 これにより、例えば、学生は、深度予測と物体検出を同時に行うことができます。 今回の実験では、分類、セマンティックセグメンテーション、オブジェクトボックス検出、深度推定の4つの教師モデルを用意しました。 私たちは、ResNet [21]とFPN(Feature Pyramid Network)[36]をベースにしたシンプルなモデル・アーキテクチャ(図3)を設計します。 ResNet-FPNバックボーンのパラメータは,異なるタスク間で共有されます. 個々のタスクに対しては,ImageNet(1.3M画像)における教師付き学習のものと同等の,数個の畳み込み層からなる小さなタスク固有のヘッドを持っていますが,JFT(3億画像)ではそれほど大きくはなりません. 一方,MuSTは,ImageNetとJFTの両方において,SimCLR [5]を上回りました. さらに、画像分類タスクを除く6つのタスクのうち5つのタスクで、MuSTはJFTの教師付き事前学習を上回りました。 この結果から、MuSTはラベルのないデータが増えるほど向上する一般的な特徴表現を学習できる可能性が示されました。 最後に、MuSTがALIGN[24]のようなすでに強力なチェックポイントを改良できることを示します。 数十億の教師付き例で訓練されたALIGNチェックポイントを、MuSTの疑似ラベルで微調整し、一連の下流タスク(検出、セグメンテーション、深度推定タスク)での改善を見つけました。

我々の貢献を以下にまとめます。

image

image