e4exp / paper_manager_abstract

0 stars 0 forks source link

Playing Lottery Tickets with Vision and Language #424

Open e4exp opened 3 years ago

e4exp commented 3 years ago

大規模な変換器ベースの事前学習は、近年、視覚と言語(V+L)の研究に革命をもたらした。 LXMERT、ViLBERT、UNITERなどのモデルは、広範囲のV+Lタスクにおいて、技術的な状況を大幅に改善した。 しかし、このようなモデルはパラメータの数が多いため、実際には適用できません。 これと並行して、宝くじ仮説に関する研究では、深層ニューラルネットワークには小さなマッチングサブネットワークが含まれており、単独で学習した場合、高密度ネットワークと同等かそれ以上の性能を達成できることが示されている。 本研究では、このような学習可能なサブネットワークが、事前に学習されたV+Lモデルにも存在するかどうかを評価する初めての実証的研究を行う。 本研究では、V+Lモデルの中でも特に性能の高いUNITERをテストベッドとし、視覚的質問応答、視覚的常識推論、視覚的内包、参照表現理解、画像-テキスト検索、GQA、NLVR2の7つの代表的なV+Lタスクを集約して実験を行った。 これらを総合的に分析した結果、以下のような知見が得られたとしている。

(i)UNITERのフルモデルの性能と厳密に一致するサブネットワーク(チケット)を見つけることは困難である。しかし、50%-70%のスパース度で、完全な精度の99%を維持する「リラックスした」勝利チケットを見つけることができることを確認できたのは心強い。 (ii) タスク固有の刈り込みによって見つかったサブネットワークは、他のタスクに適度に移行するが、60%/70%のスパースティで事前学習タスクで見つかったサブネットワークは、すべてのタスクで平均して完全な精度の98%/96%に一致し、普遍的に移行する。 (iii) 逆問題学習は、発見された宝くじの性能をさらに高めるために使用することができます。

e4exp commented 3 years ago
  1. はじめに

BERT[13]の成功に触発され、大規模な事前学習は、視覚と言語(V+L)の研究において、 ますます中心的なパラダイムとなっている。 LXMERT [65]、ViLBERT [45]、UNITER [11]などの事前学習モデルは、視覚的質問応答(VQA) [2, 22]、視覚的コモンセンス推論(VCR)[78]、および画像-テキスト検索[34]など、広範囲のV+Lタスクにおいて最先端の性能を達成しています。 しかし,経験的な成功にもかかわらず,これらの学習済みモデルは,パラメータの数が多いため,メモリと計算のフットプリントが膨大になり,リソースに制約のあるシナリオで使用することは不可能です. そこで、次のような疑問が浮かびました。大規模な事前学習済みのV+Lモデルを、その性能と移植性を維持したまま刈り込むことができるだろうか?

本研究では,lottery ticket hypothesis(LTH)[16]を用いて,この疑問に答えることを目的としている. この仮説は,高密度のニューラルネットワークには,初期化から分離して学習することで,同程度の学習反復で完全なモデルと同等の精度に達するマッチングサブネットワークが存在する,というものである. LTHは様々な分野で大きな成果を上げており[76, 57, 6],その特性は広く研究されています[50, 53, 17]. しかし、LTHはV+L分野にはまだ導入されておらず、現在普及している事前学習済みのV+Lモデルのパラメータの冗長性を理解するための強力なツールとなりうる。 まず、V+Lモデルの中でも最も性能の良いモデルの一つであるUNITER [11]をメインのテストベッドとし、VQA [22]、VCR [78]、GQA [28]、NLVR2 [62]、visual entailment [72]、referring expression comprehension [77]、Image-text retrieval [34]の7つの代表的なV+Lタスクを実験対象としている。 我々の文脈では、チケットとはUNITERのサブネットワークを意味し、勝ちチケットとはオリジナルのフルUNITERモデルの性能に匹敵するサブネットワークを意味する。 これに基づいて、我々は以下の3つの質問をする。

まず、V+Lの当選チケットを描くことができるのか? これに答えるために、我々は事前に学習された重みをタスク固有の微調整のためのモデルの初期化として使用し、Iterative Magnitudebase Pruning (IMP) [23]を使用して、各下流のV+Lタスクのチケットを抽選する。 しかし、各タスクの反復的な訓練-刈り込み-再訓練のサイクルを繰り返してチケットを見つけることは、主に大規模な事前訓練モデルを使用する場合、非常に時間がかかります。 そこで重要になってくるのが、「普遍的に移行するサブネットワークをどうやって見つけるか」ということです。 これが実現できれば、当たりくじを見つけるための特別なコストを、下流の様々なタスクに移すことで償却することができます。 6]に触発されて、自然なアイデアは、事前トレーニングのデータを使用して事前トレーニングのタスクにIMPを実行し、事前トレーニングはタスクにとらわれないと考えられるので、そのような学習されたチケットが転送可能かどうかを評価することです。 これに加えて、発見されたタスク固有のウィニングチケットをよりよく理解するために、すべての下流タスク間の転送動作をさらに包括的に分析する。 VILLA[20]では、様々なV+Lタスクの性能を向上させるために、敵対的なトレーニングを使用できることが示されています。 しかし、これは密度の高い事前学習モデルを用いて研究されています。 このような結論が、スパースなトレーニング体制でも成立するかどうかは不明である。 密なモデルと疎なモデルではトレーニングのダイナミクスが異なる可能性があるため、これに答えるのは容易ではありません。 これを研究するために、我々はさらに敵対的なトレーニングの下でIMPを実行し、これがより良いV+Lチケットの識別に役立つかどうかを評価する。 包括的な分析により、我々の主な発見を以下のようにまとめた。

我々は、コンピュータビジョン、NLP、その他の分野で見つかった主要な宝くじの観察結果は、視覚と言語の文脈でも通用すると結論づけています。 発見された疎な学習可能、普遍的な伝達可能なサブネットワークは、圧縮されたUNITERモデルとして機能し、一般に公開される予定です。

e4exp commented 3 years ago
  1. 結論と考察

本論文では、視覚と言語に関する宝くじ仮説(LTH)の包括的な研究を紹介しました。 以下では、今回の研究の限界と、今後の課題についても述べる。

(i) 効率。我々は主にLTHの科学的研究に焦点を当てました。今後の課題としては、非構造化プルーニングに適したハードウェアプラットフォームでの実際の高速化の結果を調査する予定です。例えば,XNNPACK [14] は,スマートフォンのプロセッサ上で,高密度のネットワークに対して大幅なスピードアップを示しています. (ii) 物体検出。ほとんどのV+L研究はマルチモーダルフュージョンに焦点を当てていますが、画像特徴はオフラインの物体検出モデルによって抽出されることが多いです。そのため,我々は主に変換モジュールのLTHを研究した.今後の課題としては,物体検出のLTHや両者の組み合わせについても検討していきたい. (iii) 一般化。我々は主にUNITERに注目したが、他の事前学習済みのV+Lモデルについても、基本的には同じ変換器構造を共有しているため、我々の発見は有効であると考えている。

e4exp commented 3 years ago

image