shimopino / papers-challenge

Paper Reading List I have already read
30 stars 2 forks source link

The Surprising Effectiveness of Linear Unsupervised Image-to-Image Translation #192

Open shimopino opened 4 years ago

shimopino commented 4 years ago

論文へのリンク

[arXiv:2007.12568] The Surprising Effectiveness of Linear Unsupervised Image-to-Image Translation

著者・所属機関

Eitan Richardson, Yair Weiss

投稿日時(YYYY-MM-DD)

2020-07-24

1. どんなもの?

2. 先行研究と比べてどこがすごいの?

教師なしの設定で、あるドメインAから異なるドメインBに画像を変換するタスクとは、確率論の視点から見ると2つのドメインに対する同時分布を求めることと同じである。

この問題設定は不良設定問題になってしまう。

(a) もしも教師ありの設定の場合には、ドメイン同士に対応するペアが存在しており、ドメイン変換自体が回帰問題だと捉えることができる。 (c) しかし教師なしの設定では、各ドメインに対応する組み合わせが無数に存在しており、ドメイン間の変換を行う関数が一意に定まることがない。

image

こうした教師なしの状況でドメイン変換に成功しているモデルにはCycleGAN及びその派生モデルが存在している。

しかしこうしたモデルの欠点は局所的なドメイン変換しかできない点である。具体的には、出力画像の各ピクセルは、入力画像の対応する位置周辺のピクセルに大きく依存しており、変換後の大域的な構造自体も保存されてしまう点である。

実際に以下の画像のように、ある画像をドメインA、同じ画像を垂直に反転させた画像をドメインBとする。CycleGANやMUNITは、画像の反転という単純な操作を学習できておらず、生成画像は歪んでおり入力画像とも似ていないことがわかる。

image

こうした局所的な鋭敏性が生じてしまう原因は、ドメイン変換モデルが採用しているボトルネック部分での空間的な解像度の大きさである。またいくつかのモデルでは、変換前後の画像の各ピクセル値に対するL1損失を採用していることも原因である。

image

こうした局所的な依存関係を排除する方法の1つは、ボトルネック部分での空間改造をなくすことである。これは先行研究で提案されている ALAE と似た構造になっている。

image

こうした構造にすることで、空間的な類似性を強制することなくドメイン変換を行うことが可能となり、実際に変換前後の画像を確認してみると、ドメイン変換前後に空間的な類似性が消えていることがわかる。

image

本研究では、ドメイン間の投影は線形的かつ直交的でもあると仮定した上で、空間的な依存性を排した新たなモデルを提案している。

3. 技術や手法の"キモ"はどこにある?

3.1 線形的なドメイン変換

本研究では、あるドメインAに属する画像群を、異なるドメインBに属する画像群に線形的かつ直交的に投影できる関数を学習させていく。

4. どうやって有効だと検証した?

FFHQデータセットを使用して、ドメイン変換時に適用した関数を学習させてみた結果、どの変換手法も学習できていることがわかる。

image

どの程度上手く変換できているのか検証するために、変換後の画像とTarget画像とのMSEとSSIMを計算した。

その結果、Colorizationなどの画像の局所性を保持するようなタスクにおいては、本手法はCycleGANやMUNITなどの既存手法と同程度の精度により短時間で達成している。

また画像の反転や回転などの、局所性を維持しないようなタスクに関しては、本手法がより少ない学習時間で、より高い精度を達成できていることがわかる。

image

5. 議論はあるか?

image

shimopino commented 4 years ago

https://github.com/eitanrich/lin-im2im