Open shimopino opened 4 years ago
[arXiv:2003.00187] Augmented Cyclic Consistency Regularization for Unpaired Image-to-Image Translation
Takehiko Ohkawa, Naoto Inoue, Hirokatsu Kataoka, Nakamasa Inoue
2020-02-29
UnPairedな画像変換タスクは、背景やポーズが異なるデータセットにおいては自然な画像を生成することが難しい。GANを安定化させるために新たな正則化手法 Augmented Cyclic Consistency Regularization (ACCR) を提案した。
通常のCR-GANで使用する正則化は、入力となる画像とドメイン変換を行った後に再構成した画像の間で行っている。この手法では、入力画像・ドメイン変換画像・再構成画像の3種の画像をそれぞれ意味を保ったまま変換処理を施し、増強された画像と元の画像の間で正則化を行っている。従来のconsistency regularized GAN (CR-GAN)を上回る性能を達成した。
この図はとても分かりやすい。
2つのGANを使用して互いに再構成した画像に対してL1損失関数を計算している。
Discriminatorに対して適用する損失関数であり、Discriminatorが同一ドメインである限りデータ増強された画像に対しても機能することを期待している。
実画像、生成画像、再構成画像のそれぞれに対して損失関数を定義する。
まずは実画像と増強された実画像に対してDiscriminatorの損失を計算する。同じドメインの実画像に対してDiscriminatorが頑強になることを期待している。
ドメイン変換を行った画像と、ドメイン変換を行った後で増強した画像で損失を計算する。
再構成された画像と、再構成した画像を増強した画像で損失を計算する。
ドメインX1からドメインX2への変換のみが記載されている。 こうしてみるとよりどこで画像の増強を行い、Discriminatorに与えているのかわかりやすい。
ノイズが導入されていたり、様々な背景を持っている手書き文字データセットを使用してモデルの性能評価を行った。
それぞれのタスクで変換した画像に対して、ターゲットドメインの分類で精度を計算している。この精度が高ければ、分類器が変換された画像をターゲットからサンプリングされたものだと判断していると考えられる。
様々なタスクで性能が向上していることがわかったが、Discriminatorの学習速度も向上しているのが印象的。
実装をする際は4節の説明を参考に!
PatchGANが使われている論文が多い。 今のデファクトなのかな?
https://github.com/aalmah/augmented_cyclegan/tree/master/edges2shoes_exp https://vimeo.com/287766804
論文へのリンク
[arXiv:2003.00187] Augmented Cyclic Consistency Regularization for Unpaired Image-to-Image Translation
著者・所属機関
Takehiko Ohkawa, Naoto Inoue, Hirokatsu Kataoka, Nakamasa Inoue
投稿日時(YYYY-MM-DD)
2020-02-29
1. どんなもの?
UnPairedな画像変換タスクは、背景やポーズが異なるデータセットにおいては自然な画像を生成することが難しい。GANを安定化させるために新たな正則化手法 Augmented Cyclic Consistency Regularization (ACCR) を提案した。
通常のCR-GANで使用する正則化は、入力となる画像とドメイン変換を行った後に再構成した画像の間で行っている。この手法では、入力画像・ドメイン変換画像・再構成画像の3種の画像をそれぞれ意味を保ったまま変換処理を施し、増強された画像と元の画像の間で正則化を行っている。従来のconsistency regularized GAN (CR-GAN)を上回る性能を達成した。
この図はとても分かりやすい。
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
3.1 CycleGANで提案された損失関数
2つのGANを使用して互いに再構成した画像に対してL1損失関数を計算している。
3.2 Consistency Regularization for GANsでの損失関数
Discriminatorに対して適用する損失関数であり、Discriminatorが同一ドメインである限りデータ増強された画像に対しても機能することを期待している。
3.3 Augmented Cyclic Consistency Regularization
実画像、生成画像、再構成画像のそれぞれに対して損失関数を定義する。
まずは実画像と増強された実画像に対してDiscriminatorの損失を計算する。同じドメインの実画像に対してDiscriminatorが頑強になることを期待している。
ドメイン変換を行った画像と、ドメイン変換を行った後で増強した画像で損失を計算する。
再構成された画像と、再構成した画像を増強した画像で損失を計算する。
3.4 ネットワーク構造
ドメインX1からドメインX2への変換のみが記載されている。 こうしてみるとよりどこで画像の増強を行い、Discriminatorに与えているのかわかりやすい。
4. どうやって有効だと検証した?
ノイズが導入されていたり、様々な背景を持っている手書き文字データセットを使用してモデルの性能評価を行った。
それぞれのタスクで変換した画像に対して、ターゲットドメインの分類で精度を計算している。この精度が高ければ、分類器が変換された画像をターゲットからサンプリングされたものだと判断していると考えられる。
様々なタスクで性能が向上していることがわかったが、Discriminatorの学習速度も向上しているのが印象的。
5. 議論はあるか?
6. 次に読むべき論文はあるか?
論文情報・リンク