1Samsung AI Center, Moscow
2National Research University Higher School of Economics, St.-Petersburg
3Skolkovo Institute of Science and Technology, Moscow
Notation
HiDTでは2つのエンコーダーを使用. Ec : X → C は入力画像 x の内容表現 c を抽出し, Es: X → S は入力画像 x のスタイル表現 s を抽出.コンテンツコードc∈Cとスタイルコードs∈Sが与えられると, デコーダ(生成器)G : C × S → X × Mは, 新しい画像x^とそれに対応するセグメンテーションマスク m^を生成.具体的には,(xˆ, mˆ ) = G (Ec(x), Es(x′)) のように,xの内容と別の画像x′のスタイルを組み合わせることができる.
また, 学習時には, S上の事前分布p∗からサンプリングしたランダムスタイルコードsrを考慮し, コンテンツコードcとランダムスタイルsrにそれぞれデコーダを適用することで, ランダムスタイル画像(ランダムスタイルマスク)を得る.
Namely, for a given pool size T we collect the styles {s(1) , . . . , s(T ) } from past minibatches with the stop gradient operation applied. We then add styles s and s′ (which are part of the current computational graph) to this pool, and calculate the mean vector μˆsand covariance matrix Σs using the updated pool. Then the style distribution loss matches empirical moments of the resulting distribution to the moments of the prior distribution N (0, I)
Total loss function
λ1 =5,λ2 =2,λ3 =3,λ4 =1,λ5 = 0.1, λ6 = 4, λ7 = 1
INFO
author
I.Anokhin1, P.Solovev1, D.Korzhenkov1, A.Kharlamov1, T.Khakhulin1,3, A.Silvestrov1, S.Nikolenko2,1, V.Lempisky1,3, G.Sterkin1
affiliation
1Samsung AI Center, Moscow 2National Research University Higher School of Economics, St.-Petersburg 3Skolkovo Institute of Science and Technology, Moscow
conference or year
CVPR 2020
link
arXiv 実装
概要
この研究では学習中も推論中もドメインラベルに依存しない, 高解像度で同じシーンにおける異なるイルミネーション下の変換(HiDT)モデルを提案. HiDTは, generativeなI2Iモデルと, 高解像度での画像変換を可能にする新しいアップサンプリングスキームを組み合わせたものである. 昼間のラベルが利用できない静止風景画像のデータセットでトレーニングを行った結果として優れた性能が得られた. 1枚の画像からタイムラプスを生成することが可能である. 以下この研究の貢献を示す.
提案手法
従来のimage translationモデルは, cGANを利用して, 対象の属性やドメインに関する情報を入力. この研究では, タイムスタンプも空間的な整列(i.e.タイムラプスフレームのような)も必要としない. 最近の生成モデルは, メモリの制約のために高解像度の入力画像にスケールするのが難しい場合が多く, ほとんどのモデルはトリミングされた部分や縮小された画像で学習される. 従来のアプローチでは画像のエッジ付近でハロータイプのartifactが発生することがよくあり, 高解像度でもっともらしい画像を生成するためには, 翻訳出力をアップスケールしてartifactを除去するための追加のenhancement ステップが必要になる. 提案手法はpix2pixHDのアプローチに似ているが,特徴量を学習するのではなく,古典的なマルチフレーム超解像アプローチに触発された方法で,低解像度の変換を直接利用.
コンテンツエンコーダEcは,いくつかの畳み込みダウンサンプリング層と残差ブロックを使用して,初期画像を3Dテンソルcにマッピング.スタイルエンコーダEsは完全畳み込みネットワークであり,グローバルプーリングと圧縮1×1畳み込み層で終了する.生成器Gは, AdaINモジュールを内部に含む複数の残差ブロックでcを処理し, アップサンプリング.
昼間の風景画像を作成するためには, モデルは元の画像から細かいディテールを保存しなければならない.この要件を満たすために, エンコーダEcのダウンサンプリング部とジェネレータGのアップサンプリング部の間にスキップ接続を設けて, エンコーダとデコーダのアーキテクチャを強化.通常のスキップ接続では, 初期入力のスタイルが出力にleakしてしまうのでAdaINを用いた畳み込みブロックを追加導入し, スキップ接続に適用.
副産物として最先端のセグメンテーションを達成することを目指しているわけではないが, セグメンテーション損失を持つことはスタイルの伝達を制御し, 意味的なレイアウトを維持するのに役立つ. セグメンテーションマスクはネットワークへの入力として与えられないため, 推論時には不要.
Notation HiDTでは2つのエンコーダーを使用. Ec : X → C は入力画像 x の内容表現 c を抽出し, Es: X → S は入力画像 x のスタイル表現 s を抽出.コンテンツコードc∈Cとスタイルコードs∈Sが与えられると, デコーダ(生成器)G : C × S → X × Mは, 新しい画像x^とそれに対応するセグメンテーションマスク m^を生成.具体的には,(xˆ, mˆ ) = G (Ec(x), Es(x′)) のように,xの内容と別の画像x′のスタイルを組み合わせることができる. また, 学習時には, S上の事前分布p∗からサンプリングしたランダムスタイルコードsrを考慮し, コンテンツコードcとランダムスタイルsrにそれぞれデコーダを適用することで, ランダムスタイル画像(ランダムスタイルマスク)を得る.
loss function
中解像度で複数回のtranslationを適用し, その結果を高解像度のimage translationに結合するために別個のマージネットワークGenhを使用することを提案. 具体的には, 高解像度画像xhi(実験では1024×1024)を考える.xhiの16個のシフトされたバージョン{x(i)hi}i それぞれがxhiと同じサイズを持ち, xとyの範囲[0; 4]にまたがる整数の変位で得られる(欠損ピクセルはゼロで埋められる). 次に, シフトされた画像をバイリニアにダウンサンプリングし, 16枚の中解像度画像{x(i)med}iを生成.
次に, 中解像度画像のそれぞれに個別にHiDTを適用し, 変換された中解像度画像{xˆ(i)med}i, xˆ(i) = G(Ec(x(i)med ),Es(x(i) med))を得る. これらのフレームは, 一定の順序で一つのテンソルに積み上げられ, 変換された高解像度画像を出力するマージネットワークGenhに供給される.マージネットワークの出力は, スタイルs′に翻訳された高解像度の入力画像xhiに対応. アプローチがpix2pixHDと類似していることに注意しなければならないが,違いは特徴マップの代わりにいくつかのRGB画像を入力として使用していることである.学習の際には, pix2pixHDと同じ損失, すなわちperceptual, feature matching, and adversarial loss functionsを用いる. ここでは, 不対になっていないデータに対しては, adversarial lossのみを適用.
検証
ベースラインよりもこのモデルのユーザーの嗜好性を報告し, 「ユーザースコアが0.5に等しい」という仮説と「ユーザースコアが0.5未満」という仮説に片側二項検定を適用して統計的有意性を評価.多重仮説検定のため, Holm-Sidak調整も適用し, 調整したp値を示す. すべてのモデルは基本的には互いに同等であり, 異なるメトリクスによって勝者が異なる.
新規性
議論,展望
今後の研究の方向性としては, translation ネットワークとenhancementネットワークを統合して, end-to-endで訓練された単一のモデルにすることが考えられる.
Comment
date
June 24th, 2020