INFO

書いてる途中で間違えて消してしまったので, もう一度まとめを書く気力が残っていない... アブストの訳と提案手法の簡潔な概要のみ記述.

author

Patrick Esser Robin Rombach Bjorn Ommer

affiliation

Heidelberg Collaboratory for Image Processing, IWR, Heidelberg University, Germany

conference or year

CVPR2021(Oral)

link

arXiv 実装

概要

逐次データの長距離相互作用を学習するために設計されたトランスフォーマーは、さまざまなタスクで最先端の結果を示し続けている。CNNとは対照的に、トランスフォーマーには局所的な相互作用を優先する帰納的なバイアスはない。これにより、表現力が豊かになる一方で、高解像度画像のような長いシーケンスでは計算が不可能になる。本研究では、CNNの帰納的バイアスの有効性と変換器の表現力を組み合わせることで、高解像度画像をモデル化し、合成することができることを示す。(i)CNNを使って画像構成要素の文脈に沿った語彙を学習し、(ii)トランスフォーマを使って高解像度画像内の構成要素を効率的にモデル化する方法を示す。このアプローチは、オブジェクトクラスのような非空間情報と、セグメンテーションのような空間情報の両方が生成された画像を制御できる条件付き合成タスクに容易に適用できる。特に、トランスフォーマーを用いたメガピクセル画像の意味論的に誘導された合成に関する最初の結果を発表します。

我々の目標は、変換モデルの非常に有望な学習能力を利用し、メガピクセル領域までの高解像度画像合成に導入することです。変換器を画像生成に適用した以前の研究[[ Image transformer](), [Generative pretraining from pixels]()]では，64×64ピクセルのサイズの画像に対して有望な結果が得られましたが，シーケンス長のコストが二次関数的に増加するため，単純に高解像度に拡大することはできませんでした．高解像度の画像合成には、画像の全体的な構成を理解し、局所的に現実的で、かつ全体的に一貫したパターンを生成できるモデルが必要である。そこで、画像を画素で表現するのではなく、コードブックから得られる知覚的に豊かな画像構成要素の組み合わせとして表現します。3.1節で述べたように、効果的なコードを学習することで、構成要素の記述長を大幅に削減することができます。これにより、3.2節で述べたように、変換器アーキテクチャを用いて、画像内のグローバルな相互関係を効率的にモデル化することができます。このアプローチは、図2にまとめられており、無条件および条件付きの設定の両方で、現実的で一貫性のある高解像度画像を生成することができます。

トランスフォーマが長距離の相互作用を効率的に学習する理由は，すべての要素間の相互作用を考慮できることにありますが，特に画像の場合，シーケンスの長さ自体が解像度に対して2次関数的に変化するため，トランスフォーマがすぐに実現不可能になってしまう理由でもあります．より長いシーケンスに対してトランスフォーマを実行可能にするために，計算量を削減する様々なアプローチが提案されている． [Image Transformer]()と[Scaling autoregressive video models]()は，注目モジュールの受容野を制限することで，表現力を低下させ，特に高解像度の画像では，ピクセルの独立性について不当な仮定を導入しています． [Generating long sequences with sparse transformers]()と[Axial attention in multidimensional transformers]()は，完全な受容野を保持していますが，長さnのシーケンスのコストを削減できるのはn²からn √nまでの範囲に限られ，64ピクセルを超える解像度では依然として法外なコストがかかります．

畳み込みアルゴリズムは，画像の自己回帰モデリングに使用されてきましたが，低解像度の画像では，トランスフォーマが畳み込みアルゴリズムよりも一貫して優れた性能を発揮することが以前の研究 [[Image Transformer](), [Generating long sequences with sparse transformers](), [Axial attention in multidimensional transformers]()]で示されていました．今回のアプローチでは，最新の畳み込み手法に対するトランスフォーマの優位性を維持しつつ，高解像度画像を効率的にモデル化することができます．

提案手法

コードブックとTransformerを用いて画像を生成するVQGANを提案. VQ-VAEのように潜在空間を量子化するが, GANを用いて画像を生成させること, コードの出現確率PixelCNNでなくTransformerで自己回帰学習していることが異なる. 深度やkey pointからの画像生成も可能. feature mapのそれぞれのベクトルに最も距離が近いものを, あらかじめ用意したコードブックで置き換える. 再構成の際, コードブックに流れた勾配をそのままエンコーダに渡して学習させる. VQVAEのl2 lossをperceptual lossに置き換え.

VQGANのダウンサンプリングブロック数mを調整することで，H×Wサイズの画像をh = H/2 m × w = W/2 mに縮小することができますが，データセットに依存するmの臨界値を超えると，再構成品質が劣化することがわかりました．メガピクセル領域の画像を生成するためには、パッチワイズで作業し、画像をクロップして、トレーニング中にsの長さを最大限実現可能なサイズに制限する必要があります。画像をサンプリングするために、図3に示すように、スライディング・ウィンドウ方式で変換器を使用します。我々のVQGANは、データセットの統計がほぼ空間的に不変であるか、または空間的な条件付け情報が利用可能である限り、利用可能なコンテキストが画像を忠実にモデル化するのに十分であることを保証する。実際には、これは制限的な要件ではない。なぜなら、これに違反した場合、すなわち、整列したデータに対する無条件の画像合成の場合、[38]と同様に、単に画像座標を条件とすることができるからである。

検証

新規性

本論文では，従来，変換器を低解像度の画像に限定していた基本的な課題に取り組みました。我々は、画像を知覚的に豊かな画像構成要素の組み合わせとして表現するアプローチを提案し、それにより、画像をピクセル空間で直接モデル化する際に発生する二次的な複雑さを克服しました。構成要素をCNNアーキテクチャーでモデル化し、その構成要素をトランスフォーマーアーキテクチャーでモデル化することで、それぞれの相補的な強みを最大限に活かし、トランスフォーマーベースのアーキテクチャーを用いた高解像度画像合成の最初の成果を得ることができました。実験では、メガピクセル級の画像を合成することで、畳み込み型の帰納バイアスの効率性とトランスフォーマーの表現力を実証し、最新の畳み込み型アプローチを上回る結果を得ました。条件付き合成のための一般的なメカニズムを備えたこの手法は、新しいニューラル・レンダリング・アプローチに多くの可能性をもたらします。

議論，展望

Comment

image-GPTとの比較

我々のアプローチの有効性をさらに評価するために，画像に関する最新の生成的な変換モデルである ImageGPT [8]と比較します．著者らは膨大な計算量を用いて、変換モデルが画像のピクセル表現に適用できることを実証し、表現学習と画像合成の両方で素晴らしい結果を出しました。しかし、彼らのアプローチはピクセル空間に限定されているため、192×192の解像度を超えることはできません。我々のアプローチは、強力な圧縮方法を利用して画像の文脈に富んだ表現を取得し、変換モデルを学習するので、より高い解像度の画像を合成することができます。図15と図16に、画像の補完を示して、両手法を比較してみました。どちらの図も、我々のアプローチが、飛躍的に向上した忠実度の一貫した補完を合成できることを示している。[8]の結果は、https:// openai.com/blog/image-gpt/から得られたものです。

date

May 31th, 2021

IsHYuhi / PaperSummary

Taming Transformers for High-Resolution Image Synthesis #15