e4exp / paper_manager_abstract

0 stars 0 forks source link

Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision #287

Open e4exp opened 3 years ago

e4exp commented 3 years ago

トランスフォーマーアーキテクチャは、長年リカレントニューラルネットワークに支配されていた計算言語学の分野に根本的な変化をもたらしました。 その成功は、言語と視覚のクロスモーダルなタスクにも劇的な変化をもたらし、多くの研究者がすでにこの問題に取り組んでいます。 本論文では、この分野における最も重要なマイルストーンと、トランスフォーマ・アーキテクチャがどのように視覚言語的なクロスモーダル・タスクに組み込まれてきたかについての全体的な傾向をレビューします。 さらに、現在の限界を議論し、差し迫っていると思われるいくつかの展望を推測します。

e4exp commented 3 years ago

image

image

e4exp commented 3 years ago

結論

本論文では,言語と視覚のクロスモーダルタスクのための変換モデルの最近の動向を,事前学習のスキームとネットワークアーキテクチャに重点を置いてレビューした。 言語領域と同様に,クロスモーダルモデルの性能は,モデルサイズ,データセットサイズ,事前学習の目的などに強く依存することがわかった. また、変換器アーキテクチャを視覚表現に適用した作品を紹介し、変換器ベースのクロスモーダルモデルについて、変換器専用モデル、データ効率の良いモデル、生成タスク用モデルなどの可能性について議論した。 本稿で取り上げたテーマはまだ比較的初期の段階であり、今後深層学習分野で重要性を増していく可能性のあるテーマの第一段階をまとめた参考資料となれば幸いです。

e4exp commented 3 years ago

1 はじめに

ディープラーニング革命の到来以来、言語と視覚のクロスモーダルなタスクでは、畳み込みニューラルネットワーク(CNN)(LeCunら(1998);Krizhevskyら(2012))を用いて視覚領域から特徴を抽出することがデファクトスタンダードとなっており、VGG(Simonyan and Zisserman(2015))やResNet(Heら(2016))が最も頻繁に用いられてきた。 (2016))が最も頻繁に使用されているCNNアーキテクチャであるが、言語表現の学習には、長短期記憶(LSTM)(Hochreiter and Schmidhuber (1997))やゲーテッド・リカレント・ユニット(GRU)(Cho et al. (2014))などのリカレント・ニューラル・ネットワーク(RNN)(Elman (1990))を採用している。 特徴量を抽出する具体的な方法や、それらを共通の埋め込み空間にブレンドする方法については、さまざまなバリエーションが存在するが、基本的なパイプラインは、ほとんど常にCNNとRNNの組み合わせに限定されてきた。 この不動の風景が変わり始めたのは、Transformerアーキテクチャの導入からである(Vaswani et al.(2017))。 Transformerはまず自然言語処理(NLP)でその能力を発揮し、無数のNLPタスクで最先端の性能を達成し(Petersら(2018)、Daiら(2019)、Yangら(2019b))、急速にリカレントニューラルネットワークに取って代わりました。 また、その応用は音声認識領域にも拡大しています(Dong et al. (2018); Wang et al. (2020c))。 様々な変換器ベースの言語モデルが存在する中で、特にBERT(Devlin et al.(2019))は、その性能だけでなく、事前学習や下流のタスクへの適応性など、独自のアプローチで広く注目を集めている。 また、GPT系の作品(Radford and Sutskever (2018); Radford et al. (2019); Brown et al. (2020))では、非常に大規模なコーパスを用いて事前学習を行い、対象タスクに合わせてモデルを微調整することで、従来のモデルを大差で上回ることが実証されています。 特にGPT-3では、非常に大量のコーパスとパラメータを用いた事前学習を行うことで、微調整を行わなくても、数ショットの学習タスクで高い性能を発揮することが容易に拡張できることを示しています。

言語領域におけるトランスフォーマーアーキテクチャの成功は、当然ながら、言語と視覚を含むクロスモーダルタスクへのさらなる適用につながっている。 ViLBERT(Lu et al. (2019))は、BERTの事前学習の目的をクロスモーダル学習に拡張できることを実証した最初のモデルの1つであり、従来のCNN-RNNアプローチに基づくモデルと比較して、最先端または同等の性能を得ることができました。 他の多くのモデルも同様のアプローチをとっており、現在では、大量のデータを用いた事前学習が優れた性能をもたらすという仮定が、クロスモーダル領域にも当てはまるようになっています。 しかし、トランスフォーマーベースのクロスモーダルモデルの限界と展望に関しては、多くの重要な議論があります。 たとえば、ほとんどのモデルは、画像やビデオが何らかの方法でトークン化され、シリアル化されていることを必要とするが、基本的には、各ビジュアルトークンの特徴を抽出するためにCNNベースのモデルに依存している。 また、トランスフォーマが根本的に優れたエンベッディングを学習するのか、それとも単に計算量やデータ量が多いためにその性能が発揮されるのかについては議論の余地があり、計算効率の問題が浮かび上がってくる。 さらに、トランスフォーマのアーキテクチャと生成モデルの融合は、まだ始まったばかりの課題である。 図1は、過去数年間における、視覚と言語のそれぞれの領域での重要なモデルと、それらがクロスモーダルなタスクのアプローチにどのような影響を与えたかを示す簡単な年表です。 重要なマイルストーンと現在のトレンドを振り返ると、視覚領域での性能がCNNに匹敵することが示されていることから、トランスフォーマ・アーキテクチャがクロスモーダル・タスクの視覚表現部分を引き継ぐ可能性があると予測しています(Dosovitskiy et al.(2020))。 この点については、第4章と第5章で詳しく説明します。

本論文では、変換器ベースのクロスモーダルモデルに関する代表的な研究を、事前学習スキームに重点を置いてレビューし、様々なモデルにおける共通の特徴とその違いについて議論することを試みる。 また、変換器ベースの視覚表現や、テキストからの画像生成など、新規かつ有望な方向性のモデルについても検討する。 このようにして、クロスモーダル学習の様々な側面について最新の知見を得て、今後の深層学習分野にどのような影響を与えていくのかを展望することを目的としています。

本論文の構成は以下の通りである。 まず第2節では、従来の視覚言語的なクロスモーダルタスクと、主に言語領域に限定された要素変換アーキテクチャとそのバリエーションについて概説する。 次に第3節では、トランスフォーマーアーキテクチャを採用したクロスモーダルタスクに関する最近のモデルを紹介し、それらのアーキテクチャの変更と事前学習スキームに焦点を当てて検証する。 第3節で紹介した研究は、主に言語表現を獲得するためにトランスフォーマ・アーキテクチャを採用しているが、第4節では、視覚をトランスフォーマ・アーキテクチャで表現することを検討している研究を紹介し、畳み込みニューラルネットワークの代替の可能性を示唆する。 第5節では、クロスモーダルなタスクに対するトランスフォーマ・アーキテクチャの展望について述べる。 最後に、第6節では、本論文で提起された重要なポイントを要約するとともに、現在の限界と今後の課題について議論し、本論文を締めくくる。

e4exp commented 3 years ago

2 前置き

本節では、本論文のテーマと意味を理解するために必要な前置きを簡単に説明します。 まず、視覚言語領域の代表的なタスクを、一般的に使用されているアプローチとともにレビューします。 次に、多頭の自己注意メカニズムを見ることにより、変換器アーキテクチャについて説明し、変換器に基づくモデルであり、最近急増している変換器に基づくクロスモーダルモデルの重要な構成要素となっているBERTを紹介します。

2.1 視覚言語タスク 深層学習時代以前の初期モデルでは、テンプレートベースのモデル(Barbu et al. or ranking and retrieval models しかし、深層学習の登場により、クロスモーダルな課題に取り組むための主流のパラダイムは、畳み込みニューラルネットワークやリカレントニューラルネットワークを用いたアプローチに急速にシフトしています。

画像キャプションと視覚的質問応答(VQA)

(Antol et al. (2015); Zhang et al. (2016); Goyal et al. (2017))は、従来、言語と視覚が関わるクロスモーダルタスクの代表例とされてきた。 画像キャプションでは、画像とその画像を説明するキャプションのペアを用いてモデルを学習し、見たことのない画像に対して説明的なキャプションを生成することを学習します。 初期の作品は、CNNとLSTMのストレートな組み合わせに依存していたが(Vinyals et al. (2015); Karpathy and Li (2014) )、いくつか例を挙げると、緻密な定位(Johnson et al. (2016) )、意味的注意(Xu et al. (2015); You et al. (2016); Zhou et al. (2016) )を用いた高度なモデルが登場した。 一部の作品(Dai et al. (2017))では、さらに一歩進んで、GAN(Generative Adversarial Network)(Goodfellow et al. (2014))を画像キャプションに組み込むことで、キャプションが自然であるかどうかをGANで予測しています。

VQAは、画像に対して自然言語による質問を行い、その質問に対する回答をモデルに求めるタスクである。 VQAでは、ほとんどのアプローチが、画像表現、テキスト表現、共通埋め込み方式、注目メカニズムの4つの主要コンポーネントに分類される。 画像表現は主にCNNに依存しており、多くの場合、領域検出モデルを採用している。 一方、テキスト表現は、RNN系列のモデル、Skipthoughts(Kiros et al. クロスモーダルの埋め込みスキームは、単純な連結や要素ごとの加算・乗算でもよいが、コンパクト・バイリニア・プーリング(Fukui et al. (2016))、ローランク・バイリニア・プーリング(Kim et al. (2017))、クロスモーダル・タッカー・フュージョン(Ben-younes et al. (2017))など、より洗練されたスキームも提案されている。 また、様々な注目メカニズム(Yang et al. (2015); Lu et al. (2016))も提案されており、その有効性が実証されています1。

また、画像キャプションとVQAは、それぞれビデオキャプション(Das et al. (2013); Gella et al. (2018))、ビデオQA(Tapaswi et al. (2016))として、言語とビデオを含むクロスモーダルドメインに拡張されている。 画像キャプションやVQAと同様に、動画領域のモデル(Donahue et al. (2014); Venugopalan et al. (2015b,a))は、動画と言語を表現するために、依然としてCNNやRNNに大きく依存していた。 画像キャプションと視覚的質問応答が例示的な視覚言語的クロスモーダルタスクである一方で、他の重要で興味をそそられるバリエーションも登場している。

Visual commonsense reasoning (VCR) (Zellers et al. (2019))は、参照されたエージェントの行動について質問するだけでなく、モデルがその答えを選んだ理由を尋ねることで、VQAを拡張する。 これは特に、人間が行う論理的推論を実現しようとするものである。 Natural language for visual reasoning (NLVR) (Suhr et al. (2019))も、2枚の画像の並置に関して、ある文が真であるかどうかを判断することで、視覚と言語の高度な理解を必要とする。 また、参照表現の接地(Kazemzadeh et al. (2014))、キャプションベースの画像検索(Young et al. (2014))、体現型視覚認識(Yang et al. (2019a))も、視覚と言語が関わる注目すべきタスクです。

最後に、テキストからの画像生成も、視覚言語タスクの中で重要でありながらほとんど未開拓の軸です。 これまでは、鳥や花などの特定の対象領域に限られることがほとんどでしたが(Reed et al. (2016); Zhang et al. (2018b))、Sec.5で見るように、有望な作品が登場し始めています。

2.2 Transformerベースのモデル 2.2.1 Transformerアーキテクチャ

Vaswaniら(2017)は、Transformerアーキテクチャを提案し、機械翻訳などのいくつかの逐次的な変換タスクにおいて、当時主流であったRNNやCNNベースのアプローチを上回ることを実証しました。 Transformerはエンコーダ部とデコーダ部で構成されており、その両方が一連の自己注意に基づくモジュールで構成されている。 CNNやRNNとは異なり、モデルの基本演算として、畳み込みやメモリゲーティングではなく、自己注意を採用しているため、後述するように、逐次データの取り扱いに適した特性を得ることができる。 セルフアテンション処理では、まず各入力ベクトルが、クエリ、キー、バリューと呼ばれる3つのベクトルに変換されます。 ここで、各値の重みは、クエリと対応するキーとの間の類似性に応じて割り当てられます。 Q、K、Vをそれぞれ、与えられた入力ベクトルから抽出されたすべてのクエリ、キー、値を含む行列とします。 自己組織化プロセスは、Attention(Q, K, V ) = softmax(QKT √ dk )V, (1)として定式化することができます。 自己注目プロセスの柔軟性を高めるために、トランスフォーマーは、式(2)に示すように、単純な自己注目の代わりにマルチヘッド注目メカニズムを採用した。 マルチヘッドアテンションでは、複数の自己保持プロセスを並列に配置し、各出力を連結した後に線形投影して統合し、最終的な出力ベクトルを以下の式のように求めます。

image

ここで WO は,すべての注目プロセスの出力を統合するための投影行列である. 各注意プロセスのクエリ,キー,および値は,元のものを線形に投影して計算され,それらの投影行列W Q i,W K i,WV iは,WOおよびその他の学習可能なパラメータと一緒に,学習によって最適化される. 自己言及プロセスでは,入力ベクトルの順序は,結果として得られる出力ベクトルに影響しない。 例えば,ある文に対するモデルの予測は,文中の単語の順序には依存しないが,これは多くのNLPタスクでは不適切であるはずである。 この問題を回避するために、各入力の位置情報を符号化し、入力の埋め込みトークンに付加してから、変換モデルに供給する。 具体的には,位置情報は以下のように符号化される。

image

ここで,pは入力シーケンスにおけるターゲット・トークンの位置, dmodelとiはそれぞれ,埋め込まれたトークンの次元とそのインデックスである. transformerが従来のモデルに比べて優れている点は、長期依存性のモデル化と、並列計算への柔軟性です。 例えば,RNNは,トークン間の距離が長くなると,文脈を保持することが困難になります. また、RNNは逐次的に実行されるため、並行して実行することも容易ではありません。 長距離依存はCNNにとっても困難で、それに比例して多くの層が必要になるからだ。 一方、アテンションメカニズムは、あらかじめ定義された配列長の範囲内であれば、任意の距離の単語の依存関係をモデル化することができ、また、入力の順序を必要としないため、並列分散計算に非常に適している。

2.2.2 BERT transformerには多数のバリエーションが存在するが、BERT (bidirectional encoder representations from transformers) (Devlin et al (2019)) は、そのアーキテクチャが多くのクロスモーダルモデルに採用されていること、またクロスモーダル設定を考慮して拡張された事前学習タスクがあることから、我々のテーマにおいて特に重要である。 transformerに続いて、BERTは、残差接続によるマルチヘッドアテンションの上に層の正規化(Ba et al. (2016))を適用し、独自に選択した非線形活性化関数、すなわちGaussian error linear units (GELU)(Hendrycks and Gimpel (2016))を用いてフィードフォワード伝搬を適用します。 BERTは、事前学習タスク、すなわち、マスク付き言語モデリングと次文予測を独自に選択したことでも知られています。 マスクド・ランゲージ・モデリングでは、トークンが15%の確率でランダムにマスクされ、そのマスクされたトークンを予測するようにモデルが学習される。 (Wang and Cho (2019))は、双方向変換器の設定におけるマスクド・ランゲージ・モデリングは、マルコフ・ランダム・フィールド・ランゲージ・モデリングと同等であることを示している。 次の文の予測では、2つの文が提供され、2つ目の文は実際の次の文であるか、50%の確率でランダムな文であるかがあり、モデルには2つ目の文が実際の次の文であるかどうかの二値分類のタスクが与えられる。 マスクドランゲージモデリングの最初の目的は、トークンレベルの依存関係を学習することですが、2つ目のタスクの動機は、文間の関係を学習することです。 これらの2つの目的は、双方向アーキテクチャとともに、BERTの強力な性能の基礎を形成しています。

e4exp commented 3 years ago

3 Cross-modal Embeddings ここでは、変換器/BERT アーキテクチャを採用したクロスモーダルモデルを見てみましょう。 まず、事前学習の目的を確認します。 その多くは、BERTに直接インスパイアされていますが、顕著な違いがあります。 また、モーダル間の依存関係を学習するネットワーク・アーキテクチャを構築するモデルの試みと、相互に互換性のある異なるモーダルをどのように扱うかについても見ていきます。

3.1 事前訓練タスク BERT を含む変換器ベースの言語モデルが主張する主要な論点の 1 つは、大規模な事前訓練がその成 果の鍵であるということである。 このことから、高品質な言語モデルを得るためには、事前訓練作業が不可欠であることは明らかである。 変形器アーキテクチャを採用したクロスモーダルモデルは、一般的に同じ推定に基づき、事前訓練の目的の設計に重点を置いており、結果的に、クロスモーダル設定で大規模な事前訓練をどのように再現するかが重要な課題となっています。 例えば、第 2.2.2 節に示すように、BERT は、マスクされた言語モデリングと次文分類という独自の事前 訓練課題で知られているが、言語のみを対象に設計されているため、クロスモーダル設定に拡張するために は、必然的に調整が必要となる。 ほとんどのモデルは、これらの2つの事前訓練タスクを修正して採用しているが、一部のモデルは、 クロスモーダル設定用に特別に設計された追加の事前訓練タスクを提案している。

BERTの2つの事前訓練タスクの1つであるマスクド・ランゲージ・モデリングは、ほぼ例外なく、クロ スモーダルモデルの言語入力トークンに対してそのまま使用される。 注目すべきバリエーションとしては、InterBERT(Lin et al. BERTのもう1つのプレトレーニングタスクである次の文の予測は、ほとんどの場合、入力画像と文が意味的に一致するかどうかのバイナリ分類に変換されます。 これも、VL-BERT(Su et al. (2020))やUnifiedVLP(Zhou et al. (2019))のように、この事前訓練タスクを実行しないことを明示的に選択する少数の例外を除き、ほとんどのクロスモーダルモデルで実行されます。 InterBERTは、ハードな否定例とのマッチングを明示的に含むことで、ここでもユニークな変化を遂げています。

クロスモーダル埋め込みモダールの事前学習タスクの重要な課題の1つは、視覚入力に対するマスクド言語モデリングタスクの実装方法にあります。 これは、視覚の非連続的な性質のために、素朴に視覚ドメインに素直に拡張することができないからです。 実際、B2T2 (Alberti et al. (2019))やVisualBERT (Li et al. (2019))のようないくつかのモデルは、単に視覚入力に対する拡張マスクドモデリングタスクを実行しないことを選択しています。

一方で、多くのモデルは、視覚的トークンに対してマスクド言語モデリングを適用する新しい方法を提案している。 例えば、ViLBERTは、Faster R-CNN (Ren et al. (2015))によって抽出された画像領域をマスクすることを提案し、Faster R-CNNから出力されたクラス分布をラベルとして、領域のクラス分布を予測するようにモデルを訓練することで、この課題を扱っている。 また、VL-BERT(Su et al. (2020))やUnicoder-VL(Li et al. (2020a))も、クラス予測を伴うマスクドビジュアルモデリングを行う顕著な例である。 特にVL-BERTは、言語的手がかりを用いたマスクドRoI分類を提案しており、関心領域(例えば、猫)がランダムにマスクアウトされ、"kitten drinking from bottle "のような言語的手がかりのみに頼って、マスクアウトされたRoIのカテゴリーを予測するようにモデルが学習されます。 ここでは、Fast RCNN(Girshick (2015))によってRoIを取得している。 VL-BERTは、画像と文章のマッチングタスクを行わないという選択をしていますが、このユニークな設定により、クロスモーダルな依存性の学習を補うことができます。

上記のモデルはクラス分布の予測に依存していましたが、特徴回帰をマスクされたビジュアルモデリングタスクに組み込むことも有益であることがわかっています。 LXMERT(Tan and Bansal (2019))はそのような例の一つである。 マスクされたRoIのラベルを他の視覚的入力や言語的入力に基づいて分類すべきマスクされたオブジェクトの分類の上で、彼らはL2損失でRoI-特徴回帰も行っている。 また、UnifiedVLPでは、クラス予測と特徴量予測を組み合わせることで性能が向上することが報告されています。 UNITER (Chen et al. (2020c)) もクラス予測と特徴回帰の両方を行うが、マスクされた視覚モデリングのために第3のタスクを追加することを提案しており、ここではKLダイバージェンスによるクラス予測を行う。

さらにいくつかのモデルは、上記3つのカテゴリーのいずれにも該当しない新規の事前学習タスクを提案しており、これは対象となる下流のタスクに頻繁に依存する。 例えば、LXMERT, SemVLP (Li et al. (2021)), (Kervadec et al. (2019)) は、事前学習に画像の質問応答タスクを提案しており、PixelBERT (Huang et al. (2020b)) は、ピクセルのランダムサンプリングを採用している。 Luo et al. (2020a)は、対照的な事前学習を提案しており、元の配列と対応する破損した配列を照合することで、同じセマンティクスを共有する配列に対して類似した表現を学習するようモデルに促している。

これまでの多くのモデルが領域抽出にFast/Faster RCNNに依存していたのに対し、MiniVLM(Wang et al. (2020b))はEfficientDet(Tan et al. (2020))にインスパイアされた領域抽出モジュールを採用しており、そのため、まずObjects365 dataset(Shao et al. (2019))を用いて大規模な画像分類と物体検出を行うことで、視覚的特徴の強化を試みます。 続いて、キャプションとタグ付けでクロスモーダル表現の微調整を行い、キャプションとタグは既存のモデルで取得している。 表1は、代表的なクロスモーダルタスクにおける各種モデルの性能を比較したものである。 なお,各モデルは,モデルサイズの異なるデータセットを用いて学習されているため,性能を直接比較しても,特定のモデルが他のモデルよりも優れているとは限らないことに留意されたい.

表2は,各モデルが実行した事前学習タスクを比較したもので,事前学習タスクには4つの大まかな分類があります。 image

表3は,事前学習に使用したデータセットから実装の詳細まで,各モデルの設定を比較したものである。 image

図2は、代表的なモデルを、事前トレーニングに使用したデータセットのサイズ、VQAタスクでのパフォーマンス、実行した事前トレーニングの種類、およびそれぞれのモデルサイズの観点から可視化したものです。 image

それぞれのモデルのパフォーマンスに特定の側面を帰すことができるかどうかは議論の余地がありますが、パフォーマンスが高いモデルには、比較的大量のデータで事前トレーニングを行っている、モデルサイズが大きい、事前トレーニングの目的が多い、といった特徴が共通して見られます。

3.2 ネットワークアーキテクチャ トランスフォーマーを用いたクロスモーダル埋め込みのネットワークアーキテクチャは、トランスフォーマーブロックがモーダル特有のものであるsinglestreamモデルと、各トランスフォーマーブロックへの入力がインターモーダルなものであるtwo-streamモデルに大別されます。

図3)ViLBERT Luら(2019)は代表的な2ストリームモデルで、あるモダリティの入力キーと値を別のモダリティのトランスフォーマーブロックへの入力として渡すco-attentionトランスフォーマ機構を提案している。 つまり、言語のキーと値は、視覚部分のトランスフォーマーブロックに入力されます。 各モダリティのクエリは、対応するモダリティに入力されるので、変換ブロックは結局、他のモダリティを条件として、各モダリティの特徴を埋め込むことを学習します。 視覚をトークン化するために、彼らはFaster R-CNN with ResNet (He et al. (2016))のバックボーンを用いて画像領域を抽出するとともに、5次元の空間位置ベクトルを採用しています。 LXMERT(Tan and Bansal (2019))も同様のアプローチをとっており、各モダリティを埋め込んで別々にトランスフォーマでエンコードした後、クロスモダリティエンコーダを適用し、あるモダリティからのクエリベクトルh^k_iと別のモダリティからのコンテキストベクトルv^k_jを入力とし、kをそれぞれのシングルモダリティエンコーダの数としています。 DeVLBERT (Zhang et al. (2020))と(Kervadec et al. (2019))もViLBERTに倣って、各モダリティのクエリ、あるいは等価にキーと値を交換する。 SemVLP (Li et al. (2021)) は、高レベルのセマンティック・アラインメントを学習するために、ブロックの上部でのみ2ストリームのクロスモーダル学習を行うのが特徴である。 ERNIE-ViL (Yu et al. (2020))は、ViLBERTをほぼ踏襲しつつ、シーングラフアプローチを取り入れており、入力テキストを、言及しているオブジェクト、関係、属性のノードに解析します。 シーングラフ表現は、視覚と言語の間の意味的な整合性を向上させることが示されており、著者らが指摘するように、クロスモーダルなタスクをグラフニューラルネットワークに拡張する可能性を示唆している。

シングルストリームのクロスモーダル学習は、連結された入力に対して、従来の変換ブロックをアーキテクチャの変更なしに素直に拡張することができるため、かなり直感的でシンプルである。 Unicoder-VL (Li et al. (2020a))、UNITER (Chen et al. (2020c))、およびVisualBERT (Li et al. (2019))は、シングルストリーム・クロスモーダルモデルの顕著な例の一部である。 注目すべきは、ほぼすべてのモデルが言語と視覚の埋め込みの早期融合を行い、クロスモーダル変換ブロックに供給される前にそれらを連結していることです。 実際、VQAとVCRのタスクに特化して設計されたB2T2(Alberti et al. (2019))は、デュアルエンコーダ(Wu et al. (2017); Gillick et al. (2018))を修正し、テキストとバウンディングボックスとの早期融合を実行することと、画像全体からの特徴量との後期融合を実行することを比較し、早期融合が後期融合を上回ることを報告している。

MiniVLM(Wang et al. (2020b))は、軽量なクロスモーダルモデルの構築を目指しており、視覚的特徴の抽出にFast R-CNNやFaster R-CNNを採用したモデルとは異なり、2段階の効率的特徴抽出器(TEE) EfficientNet(Tan and Le (2019))とCompactBERT融合モデルを提案しています。 特に視覚特徴の抽出は、EfficinetDet(Tan et al. (2020))のように双方向特徴ピラミッドネットワークを持つEfficientNetと、その後の非最大値抑制で構成されている。 MiniVLMは、クロスモーダル学習ブロックへの入力として、視覚的特徴、トークン化された文章、トークン化されたオブジェクト名からなるトリプレット入力を提案している点も特徴的です。 これは、オブジェクトのラベルを明示的に入力することで、オブジェクトとそれに対応するテキストの間の依存関係の学習をより確実にすることができるという動機による。 同様のアプローチはOSCAR(Li et al. (2020c))でも採用されており、単語のトークンや領域の特徴と一緒にオブジェクトタグを入力する。

クロスモーダルな学習メカニズムや入力フォーマットとは別に、位置情報の埋め込みもモデル間の差異の原因となっている。 Unicoder-VL (Li et al. (2020a))では、Faster R-CNNを用いて5次元ベクトルとともに画像領域を抽出していますが、ランダムなパーミュテーションではなく、すべての画像領域に対して同じ位置の埋め込みを行っているのが特徴です。 VisualBERT (Li et al. (2019)) では、画像領域と入力トークンの間のアラインメントが利用可能であれば、各視覚的トークンの位置埋め込みは、対応する入力トークンにマッチします。

VL-BERT(Su et al. (2020))では、各入力要素が、トークン埋め込み、視覚的特徴埋め込み、セグメント埋め込み、シーケンス位置埋め込みの4種類の埋め込みで構成される形式を提案している。 最も注目すべきは視覚的特徴の埋め込みで、これは、画像領域に対するFast R-CNNからの完全に共役な特徴の出力に対応する視覚的外観特徴と、領域の各コーナーの座標を表す4-dベクトルである視覚的形状の埋め込みの組み合わせです。 なお,言語トークンの場合は,画像全体を視覚的特徴の埋め込みに使用します. イメージトークンに対する配列位置の埋め込みは、ランダムに行うことができます。

要約すると、ほとんどのモデルに共通するいくつかの意見があります。 アテンションヘッドへの入力を交換することで、2ストリームのクロスアテンション方式を明示的に考え出すモデルもあるが、多くのモデルはクロスアテンション方式を明示的に設計せず、クロスモーダルな依存性を学習するための事前トレーニングの目的に依存している。 シングルストリームでもツーストリームでも、画像は例外なくリージョンとしてトークン化されるが、位置の埋め込みのために、モデルによっては画像全体がリージョンに置き換わることもある。 また、領域はほとんどの場合、その座標情報を含む低次元の空間ベクトルを伴っています。 特徴量の抽出は、分類モデルではなく、事前に学習された物体検出モデルで行います。 ただし、MiniVLMのようなモデルでは、EfficientNetをバックボーンとして使用し、検出モデルをさらに学習させます。 画像領域に位置情報を埋め込むことは、モデル間の違いの原因の一つです。 多くのモデルは座標ベースの順序付けを採用していますが、モデルによっては、単純にランダムな順列を使用したり、すべての視覚的トークンに同じ位置の埋め込みを使用したりします。

e4exp commented 3 years ago

4 Transformerを用いた視覚表現

これまで、トランスフォーマーアーキテクチャを用いたクロスモーダルなタスクに取り組むほとんどの研究は、主に言語表現に適用されてきましたが、視覚表現を何らかの方法でトークン化することで、視覚表現と一緒に埋め込むスキームもありました。 このような視覚表現のトークン化は、ほとんどの場合、事前に学習された畳み込みニューラルネットワークに依存しています。 例えば、ViLBERT(Lu et al. (2019))は、Faster R-CNNに依存して画像領域をトークンとして抽出している。 しかし、最近のいくつかの研究では、畳み込みさえも変換器アーキテクチャに安全に置き換えられる可能性が示唆されており、これは間違いなく、視覚表現を得ることでより根本的に異なる変化が可能であることを意味しているのかもしれません。 これらの研究は、クロスモーダルなタスクを明示的に扱っているわけではないが、第5節で述べるように、クロスモーダルなタスクの見通しについて重要な示唆を与えている。 そこで、本節では、変換器を用いた視覚表現に関する最近の重要な研究を簡単に紹介する。Dosovitskiyら(2020)は、Vision Transformer(ViT)を提案し、純粋な変換器が画像分類タスクにおいて同等の性能を達成できることを示唆している。 彼らは、元々のトランスフォーマーのアーキテクチャを忠実に踏襲しつつ、画像をパッチに分割し、これらのパッチの線形エンベディングのシーケンスをトランスフォーマーの入力として与え、2D画像を平坦化されたパッチのシーケンスとして表現する。 BERTにおけるマスクドランゲージモデリングと同様の精神で、彼らはマスクドパッチ予測を行い、各パッチの平均3ビットカラーを予測するようにモデルを訓練しています。 特に、データセットサイズを変化させた彼らのアブレーション研究では、最大のデータセットであるJFT-300M(Sun et al. (2017))で事前学習を行うと、より良い性能が得られることが示されており、言語領域と同様に、大量の画像データで変換系モデルを学習することで、卓越した性能を持つモデルが得られることを示唆している。

iGPT(Chen et al. (2020b))は、視覚における変換器の適用性について、別の方向性を提案しています。 iGPTは、ピクセル予測のためのシーケンス変換器を学習することを提案しています。 まず、ピクセルを1次元のシーケンスに再形成し、次に、自動回帰的な次のピクセル予測とマスクされたピクセル予測の前処理を行います。 GPT-2の規模とアーキテクチャで学習されたモデルは、CIFAR-10の画素予測タスクにおいてWide ResNetを上回る結果となりました。 この結果は、トランスフォーマーを用いた画像生成や画像強調のための有望な研究の方向性を示唆しています。 実際、Image Transformer (Parmar et al. (2018)) や image processing transformer (IPT) (Chen et al. (2020a)) は、画像の超解像やデノイジングなどの様々なタスクにおいて、トランスフォーマーを用いたモデルが従来のモデルを上回ることを実証している。 上で紹介した作品以外にも、トランスフォーマ・アーキテクチャは、主にCNNと組み合わせて、他の主要なコンピュータ・ビジョン・タスクに取り組むことがすでに始まっている。 例えば、DETR (Carion et al. (2020))では、物体検出のためにCNNバックボーンの上にトランスフォーマーのエンコーダーとデコーダーを採用しているし、Max-DeepLab (Wang et al. (2020a))では、CNNとマスクトランスフォーマーのデュアルアーキテクチャによってパノプティックセグメンテーションを実行するなど、いくつかの例を挙げることができる。 一般的なコンピュータビジョンのタスクへのトランスフォーマーの応用については、2つのサーベイ論文(Han et al.(2021); Khan et al.(2021))を参照されたい。

e4exp commented 3 years ago

5 将来性

トランスフォーマーを用いた言語モデルの最大の懸念点は、モデルの学習規模が非常に大きいことであり、そのためには、そのような学習手順を用意するための法外な金銭的コストが急増することは避けられません。 Sharirら(2020)は、15億個のパラメータを持つモデルを学習するには、8万ドルから160万ドルかかると見積もっていましたが、現在では1,000億個以上のパラメータを持つモデルが存在します(Brownら(2020))。 さらに、このような傾向は、視覚やクロスモーダルなタスクにも当てはまることが証明されています。 セクション4で述べたように、より大きな画像データを使ってモデルをトレーニングすることで、顕著なパフォーマンスの向上が見られましたし、表1が示すように、ほぼすべてのクロスモーダルモデルが、より大きなモデルを使ってトレーニングすることで恩恵を受けていることがアブレーションの研究で明らかになっています。 このようにトレーニング費用が急速に膨れ上がっているため、手の届く範囲が一握りの大企業に限られていることが懸念されています。 代替案の可能性についてはコミュニティ単位での議論が必要かもしれませんが、Sharir et al.(2020)が指摘しているように、最も明確な方向性の1つは、より効率的なネットワークアーキテクチャの開発でしょう。 実際、変換器ベースのモデルの計算負荷を軽減することに焦点を当てた研究努力が、その後、各モダリティで登場しています。 例えば、言語領域では、DistillBERT(Sanh et al.(2020))が、損失関数に知識の蒸留を統合することで、ほぼ同等の性能を維持しつつ、BERTからパラメータ数を40%削減している。 TinyBERT (Jiao et al. (2020)) も同様に、知識の蒸留を活用することを提案しており、最大で7.5倍の小さなモデルで同等の性能を報告しています。 ビジョン領域では、ViTをベースに構築されたdata-efficient image transformer (DeiT) (Touvron et al. (2020)) が紹介されており、注目によるstudent-teacher戦略を利用したdistillationトークンが導入され、ImageNetのみで学習させた状態でCNNと同等の性能を示している。 Reformer (Kitaev et al. (2020)) もまた、変換器の効率化を目指した試みであり、ロカリティセンシティブなハッシュと可逆的な残差層により、指数関数的だった複雑さを対数関数的に減らすことで目標に近づいています。 Sparse transformers (Child et al. (2019))やswitch transformers (Fedus et al. (2021))も、スパース・アテンション・メカニズムを用いて計算量の減少に努めている。 それぞれの領域と一般的な変換器アーキテクチャにおけるこれらの結果は、クロスモーダルなタスクにおいても、後続の軽量化された変換器ベースのモデルに大きな期待を抱かせます。

第4章で示したように、トランスフォーマ・アーキテクチャは、言語だけでなく、畳み込み神経回路網を介さない視覚においても有効であることが示されている。 このような結果から、畳み込み神経回路網やリカレント神経回路網を使わずに、トランスフォーマーのみで言語と視覚の両方の表現を獲得する、トランスフォーマーアーキテクチャのみのクロスモーダルモデルの実現が間近に迫っていると推測されます。 このような可能性は重要である。 というのも、最近の研究では、トランスフォーマーがCNNよりも計算効率の面で優れていると主張されているため、アーキテクチャ面での整合性が得られれば、トランスフォーマー・アーキテクチャに最適化されたハードウェアが開発される可能性があるからである。 実際、Dosovitskiyら(2020)は、ViTがResNetsよりも最大4倍もメモリ効率が良いことを示している。 このようなメモリ効率の良さが蒸留モデルと結びつけば、上述のコスト・パフォーマンスの問題はかなりの範囲でさらに緩和され、深層学習のはるかに広い部分でアーキテクチャの転換が行われるだろう。 実際、ViLT(Kim et al. (2021))が最近提案され、両モダリティのための変換器に基づく畳み込み不要モデルが、同等以上の性能を達成しつつ、最大で60倍の速度を達成できることが実証された。 また、トランスフォーマー専用モデルの登場に伴い、事前学習の目的がどのように進化するかにも興味があります。 今後、トランスフォーマーアーキテクチャを用いたクロスモーダルモデルが、両モダリティで続々と登場することが予想され、上述した深層学習の変遷において重要な役割を果たすことになると予測されます。 第4章で示したように、iGPT(Chen et al.(2020b))では、トランスフォーマーを使って画像を生成できることを実証しました。 この成果をクロスモーダル領域に拡張すると、テキストの記述から画像を合成するというタスクに遭遇する。 テキストからの画像生成は、機械学習のコミュニティでは長年の願望であったが、その成功は、例えば、鳥や花などの特定のドメインに限られていた(Reed et al.(2016); Zhang et al.(2018b))。 しかし、Dall-e(Ramesh et al. (2021))は、GPT-3ベースの言語モデルを用いて、現実的な画像からイラストまで、地理的・時間的な知識を包含した多種多様なテキストからの画像合成を実証しました。 テキストのトークンとともに、離散的なVAEを学習した離散的な潜在コードを用いて画像をトークン化した(Kingma and Welling (2014); Rezende et al. (2014))。 変換器アーキテクチャを採用したクロスモーダルな作品の多くは、画像や動画を入力とし、テキストを出力とするタスクに取り組んできたので、これは特に興味深い。 テキストからの画像合成は、その逆方向の課題であり、既存の生成モデルとの組み合わせとともに、今後の研究の方向性として大いに期待されています。