shimopino / papers-challenge

Paper Reading List I have already read
30 stars 2 forks source link

Augmented Cyclic Consistency Regularization for Unpaired Image-to-Image Translation #19

Open shimopino opened 4 years ago

shimopino commented 4 years ago

論文へのリンク

[arXiv:2003.00187] Augmented Cyclic Consistency Regularization for Unpaired Image-to-Image Translation

著者・所属機関

Takehiko Ohkawa, Naoto Inoue, Hirokatsu Kataoka, Nakamasa Inoue

投稿日時(YYYY-MM-DD)

2020-02-29

1. どんなもの?

UnPairedな画像変換タスクは、背景やポーズが異なるデータセットにおいては自然な画像を生成することが難しい。GANを安定化させるために新たな正則化手法 Augmented Cyclic Consistency Regularization (ACCR) を提案した。

通常のCR-GANで使用する正則化は、入力となる画像とドメイン変換を行った後に再構成した画像の間で行っている。この手法では、入力画像・ドメイン変換画像・再構成画像の3種の画像をそれぞれ意味を保ったまま変換処理を施し、増強された画像と元の画像の間で正則化を行っている。従来のconsistency regularized GAN (CR-GAN)を上回る性能を達成した。

image

この図はとても分かりやすい。

2. 先行研究と比べてどこがすごいの?

3. 技術や手法の"キモ"はどこにある?

3.1 CycleGANで提案された損失関数

image

2つのGANを使用して互いに再構成した画像に対してL1損失関数を計算している。

3.2 Consistency Regularization for GANsでの損失関数

image

Discriminatorに対して適用する損失関数であり、Discriminatorが同一ドメインである限りデータ増強された画像に対しても機能することを期待している。

3.3 Augmented Cyclic Consistency Regularization

実画像、生成画像、再構成画像のそれぞれに対して損失関数を定義する。

image

まずは実画像と増強された実画像に対してDiscriminatorの損失を計算する。同じドメインの実画像に対してDiscriminatorが頑強になることを期待している。

image

ドメイン変換を行った画像と、ドメイン変換を行った後で増強した画像で損失を計算する。

image

再構成された画像と、再構成した画像を増強した画像で損失を計算する。

3.4 ネットワーク構造

image

ドメインX1からドメインX2への変換のみが記載されている。 こうしてみるとよりどこで画像の増強を行い、Discriminatorに与えているのかわかりやすい。

4. どうやって有効だと検証した?

ノイズが導入されていたり、様々な背景を持っている手書き文字データセットを使用してモデルの性能評価を行った。

image

それぞれのタスクで変換した画像に対して、ターゲットドメインの分類で精度を計算している。この精度が高ければ、分類器が変換された画像をターゲットからサンプリングされたものだと判断していると考えられる。

image

様々なタスクで性能が向上していることがわかったが、Discriminatorの学習速度も向上しているのが印象的。

5. 議論はあるか?

6. 次に読むべき論文はあるか?

論文情報・リンク

shimopino commented 4 years ago

実装をする際は4節の説明を参考に!

shimopino commented 4 years ago

PatchGANが使われている論文が多い。 今のデファクトなのかな?

shimopino commented 4 years ago

https://github.com/aalmah/augmented_cyclegan/tree/master/edges2shoes_exp https://vimeo.com/287766804