IsHYuhi / PaperSummary

Summaries of Papers in Japanese/日本語での論文要旨
3 stars 1 forks source link

High-Resolution Daytime Translation Without Domain Labels #3

Open IsHYuhi opened 4 years ago

IsHYuhi commented 4 years ago

INFO

author

I.Anokhin1, P.Solovev1, D.Korzhenkov1, A.Kharlamov1, T.Khakhulin1,3, A.Silvestrov1, S.Nikolenko2,1, V.Lempisky1,3, G.Sterkin1

affiliation

1Samsung AI Center, Moscow 2National Research University Higher School of Economics, St.-Petersburg 3Skolkovo Institute of Science and Technology, Moscow

conference or year

CVPR 2020

link

arXiv 実装

概要

image この研究では学習中も推論中もドメインラベルに依存しない, 高解像度で同じシーンにおける異なるイルミネーション下の変換(HiDT)モデルを提案. HiDTは, generativeなI2Iモデルと, 高解像度での画像変換を可能にする新しいアップサンプリングスキームを組み合わせたものである. 昼間のラベルが利用できない静止風景画像のデータセットでトレーニングを行った結果として優れた性能が得られた. 1枚の画像からタイムラプスを生成することが可能である. 以下この研究の貢献を示す.

image コンテンツエンコーダEcは,いくつかの畳み込みダウンサンプリング層と残差ブロックを使用して,初期画像を3Dテンソルcにマッピング.スタイルエンコーダEsは完全畳み込みネットワークであり,グローバルプーリングと圧縮1×1畳み込み層で終了する.生成器Gは, AdaINモジュールを内部に含む複数の残差ブロックでcを処理し, アップサンプリング.

昼間の風景画像を作成するためには, モデルは元の画像から細かいディテールを保存しなければならない.この要件を満たすために, エンコーダEcのダウンサンプリング部とジェネレータGのアップサンプリング部の間にスキップ接続を設けて, エンコーダとデコーダのアーキテクチャを強化.通常のスキップ接続では, 初期入力のスタイルが出力にleakしてしまうのでAdaINを用いた畳み込みブロックを追加導入し, スキップ接続に適用.

image 副産物として最先端のセグメンテーションを達成することを目指しているわけではないが, セグメンテーション損失を持つことはスタイルの伝達を制御し, 意味的なレイアウトを維持するのに役立つ. セグメンテーションマスクはネットワークへの入力として与えられないため, 推論時には不要.

Notation HiDTでは2つのエンコーダーを使用. Ec : X → C は入力画像 x の内容表現 c を抽出し, Es: X → S は入力画像 x のスタイル表現 s を抽出.コンテンツコードc∈Cとスタイルコードs∈Sが与えられると, デコーダ(生成器)G : C × S → X × Mは, 新しい画像x^とそれに対応するセグメンテーションマスク m^を生成.具体的には,(xˆ, mˆ ) = G (Ec(x), Es(x′)) のように,xの内容と別の画像x′のスタイルを組み合わせることができる. また, 学習時には, S上の事前分布p∗からサンプリングしたランダムスタイルコードsrを考慮し, コンテンツコードcとランダムスタイルsrにそれぞれデコーダを適用することで, ランダムスタイル画像(ランダムスタイルマスク)を得る.

loss function

image 中解像度で複数回のtranslationを適用し, その結果を高解像度のimage translationに結合するために別個のマージネットワークGenhを使用することを提案. 具体的には, 高解像度画像xhi(実験では1024×1024)を考える.xhiの16個のシフトされたバージョン{x(i)hi}i それぞれがxhiと同じサイズを持ち, xとyの範囲[0; 4]にまたがる整数の変位で得られる(欠損ピクセルはゼロで埋められる). 次に, シフトされた画像をバイリニアにダウンサンプリングし, 16枚の中解像度画像{x(i)med}iを生成.

次に, 中解像度画像のそれぞれに個別にHiDTを適用し, 変換された中解像度画像{xˆ(i)med}i, xˆ(i) = G(Ec(x(i)med ),Es(x(i) med))を得る. これらのフレームは, 一定の順序で一つのテンソルに積み上げられ, 変換された高解像度画像を出力するマージネットワークGenhに供給される.マージネットワークの出力は, スタイルs′に翻訳された高解像度の入力画像xhiに対応. アプローチがpix2pixHDと類似していることに注意しなければならないが,違いは特徴マップの代わりにいくつかのRGB画像を入力として使用していることである.学習の際には, pix2pixHDと同じ損失, すなわちperceptual, feature matching, and adversarial loss functionsを用いる. ここでは, 不対になっていないデータに対しては, adversarial lossのみを適用.

検証

image ベースラインよりもこのモデルのユーザーの嗜好性を報告し, 「ユーザースコアが0.5に等しい」という仮説と「ユーザースコアが0.5未満」という仮説に片側二項検定を適用して統計的有意性を評価.多重仮説検定のため, Holm-Sidak調整も適用し, 調整したp値を示す. すべてのモデルは基本的には互いに同等であり, 異なるメトリクスによって勝者が異なる. image

新規性

議論,展望

今後の研究の方向性としては, translation ネットワークとenhancementネットワークを統合して, end-to-endで訓練された単一のモデルにすることが考えられる.

Comment

date

June 24th, 2020