INFO

author

I.Anokhin¹, P.Solovev¹, D.Korzhenkov¹, A.Kharlamov¹, T.Khakhulin^1,3, A.Silvestrov¹, S.Nikolenko^2,1, V.Lempisky^1,3, G.Sterkin¹

affiliation

¹Samsung AI Center, Moscow ²National Research University Higher School of Economics, St.-Petersburg ³Skolkovo Institute of Science and Technology, Moscow

conference or year

CVPR 2020

link

arXiv 実装

概要

この研究では学習中も推論中もドメインラベルに依存しない, 高解像度で同じシーンにおける異なるイルミネーション下の変換（HiDT）モデルを提案. HiDTは, generativeなI2Iモデルと, 高解像度での画像変換を可能にする新しいアップサンプリングスキームを組み合わせたものである. 昼間のラベルが利用できない静止風景画像のデータセットでトレーニングを行った結果として優れた性能が得られた. 1枚の画像からタイムラプスを生成することが可能である. 以下この研究の貢献を示す.

ドメインラベルのない無調整画像の大規模なデータセットに対して, マルチドメインI2Iモデルを学習する方法を示した.
詳細予測を確実に行うために, skip connectionとadaptive instance normalizations (AdaIN)を組み合わせたI2Iのためのアーキテクチャを提案.
高解像度での画像から画像への変換という課題に取り組む.
提案手法

従来のimage translationモデルは, cGANを利用して, 対象の属性やドメインに関する情報を入力. この研究では, タイムスタンプも空間的な整列（i.e.タイムラプスフレームのような）も必要としない. 最近の生成モデルは, メモリの制約のために高解像度の入力画像にスケールするのが難しい場合が多く, ほとんどのモデルはトリミングされた部分や縮小された画像で学習される. 従来のアプローチでは画像のエッジ付近でハロータイプのartifactが発生することがよくあり, 高解像度でもっともらしい画像を生成するためには, 翻訳出力をアップスケールしてartifactを除去するための追加のenhancement ステップが必要になる. 提案手法はpix2pixHDのアプローチに似ているが，特徴量を学習するのではなく，古典的なマルチフレーム超解像アプローチに触発された方法で，低解像度の変換を直接利用．

コンテンツエンコーダE_cは，いくつかの畳み込みダウンサンプリング層と残差ブロックを使用して，初期画像を3Dテンソルcにマッピング．スタイルエンコーダE_sは完全畳み込みネットワークであり，グローバルプーリングと圧縮1×1畳み込み層で終了する．生成器Gは, AdaINモジュールを内部に含む複数の残差ブロックでcを処理し, アップサンプリング.

昼間の風景画像を作成するためには, モデルは元の画像から細かいディテールを保存しなければならない.この要件を満たすために, エンコーダE_cのダウンサンプリング部とジェネレータGのアップサンプリング部の間にスキップ接続を設けて, エンコーダとデコーダのアーキテクチャを強化.通常のスキップ接続では, 初期入力のスタイルが出力にleakしてしまうのでAdaINを用いた畳み込みブロックを追加導入し, スキップ接続に適用.

副産物として最先端のセグメンテーションを達成することを目指しているわけではないが, セグメンテーション損失を持つことはスタイルの伝達を制御し, 意味的なレイアウトを維持するのに役立つ. セグメンテーションマスクはネットワークへの入力として与えられないため, 推論時には不要.

Notation HiDTでは2つのエンコーダーを使用. E_c : X → C は入力画像 x の内容表現 c を抽出し, E_s: X → S は入力画像 x のスタイル表現 s を抽出.コンテンツコードc∈Cとスタイルコードs∈Sが与えられると, デコーダ（生成器）G : C × S → X × Mは, 新しい画像x^とそれに対応するセグメンテーションマスク m^を生成.具体的には，(xˆ, mˆ ) = G (E_c(x), E_s(x′)) のように，xの内容と別の画像x′のスタイルを組み合わせることができる．また, 学習時には, S上の事前分布p∗からサンプリングしたランダムスタイルコードs_rを考慮し, コンテンツコードcとランダムスタイルs_rにそれぞれデコーダを適用することで, ランダムスタイル画像（ランダムスタイルマスク）を得る.

loss function

Adversarial loss
Image reconstruction loss
Segmentation loss
Latent reconstruction losses 結果として得られるスタイル（コンテンツ）と，それぞれの翻訳されたスタイル画像またはランダムなスタイル画像が得たスタイル（コンテンツ）との間の損失. L_c, L^r_c, L_s, L^r_s
Style distribution loss

Namely, for a given pool size T we collect the styles {s(1) , . . . , s(T ) } from past minibatches with the stop gradient operation applied. We then add styles s and s′ (which are part of the current computational graph) to this pool, and calculate the mean vector μˆ_sand covariance matrix Σs using the updated pool. Then the style distribution loss matches empirical moments of the resulting distribution to the moments of the prior distribution N (0, I)
Total loss function λ1 =5,λ2 =2,λ3 =3,λ4 =1,λ5 = 0.1, λ6 = 4, λ7 = 1

中解像度で複数回のtranslationを適用し, その結果を高解像度のimage translationに結合するために別個のマージネットワークG_enhを使用することを提案. 具体的には, 高解像度画像x_hi(実験では1024×1024)を考える.x_hiの16個のシフトされたバージョン{x⁽ⁱ⁾_hi}_i それぞれがx_hiと同じサイズを持ち, xとyの範囲[0; 4]にまたがる整数の変位で得られる(欠損ピクセルはゼロで埋められる). 次に, シフトされた画像をバイリニアにダウンサンプリングし, 16枚の中解像度画像{x⁽ⁱ⁾_med}_iを生成.

次に, 中解像度画像のそれぞれに個別にHiDTを適用し, 変換された中解像度画像{xˆ⁽ⁱ⁾_med}_i, xˆ⁽ⁱ⁾ = G(E_c(x⁽ⁱ⁾_med ),E_s(x⁽ⁱ⁾ _med))を得る. これらのフレームは, 一定の順序で一つのテンソルに積み上げられ, 変換された高解像度画像を出力するマージネットワークG_enhに供給される.マージネットワークの出力は, スタイルs′に翻訳された高解像度の入力画像x_hiに対応. アプローチがpix2pixHDと類似していることに注意しなければならないが，違いは特徴マップの代わりにいくつかのRGB画像を入力として使用していることである．学習の際には, pix2pixHDと同じ損失, すなわちperceptual, feature matching, and adversarial loss functionsを用いる. ここでは, 不対になっていないデータに対しては, adversarial lossのみを適用.

検証

ベースラインよりもこのモデルのユーザーの嗜好性を報告し, 「ユーザースコアが0.5に等しい」という仮説と「ユーザースコアが0.5未満」という仮説に片側二項検定を適用して統計的有意性を評価.多重仮説検定のため, Holm-Sidak調整も適用し, 調整したp値を示す. すべてのモデルは基本的には互いに同等であり, 異なるメトリクスによって勝者が異なる.

DIPD: 原画像の正規化されたConv5特徴とtranslate版との間のL2距離である.コンテンツの保存性を測定するために使用.
Inception score (IS): 生成された画像の写実性を評価.
条件付きインセプションスコア（CIS）

新規性

学習中も推論中もドメインラベルに依存しない, I2Iモデルを提案.
この新しいenhancement scheme, 出力の解像度を向上させるために有望な結果を示した.
モデルが高解像度の風景画像に対してdaytime translationを学習できることを示し, アプローチが他の領域にも適用可能であることを定性的に証明.
結果は, この手法が少なくとも学習時にラベルを必要とする最新のベースラインと同等であることを示している.
画像から抽出されたスタイルを用いて画像を生成することができ, また事前分布からサンプリングされたスタイルを用いて画像を生成することも可能.

議論，展望

今後の研究の方向性としては, translation ネットワークとenhancementネットワークを統合して, end-to-endで訓練された単一のモデルにすることが考えられる.

Comment

date

June 24th, 2020

IsHYuhi / PaperSummary

High-Resolution Daytime Translation Without Domain Labels #3