Open shimopino opened 4 years ago
[arXiv:2002.04724] Improved Consistency Regularization for GAN
Zhengli Zhao, Sameer Singh, Honglak Lee, Zizhao Zhang, Augustus Odena, Han Zhang
2020-02-11
Discriminatorにのみ適用していたConsistency Regularization(CR)正則化を改善し、Generatorによる合成画像、潜在変数、Generator自身にも適用できるImproved Consistency Regularization(ICR)を提案した。
教師なしタスクと教師ありタスクにおいて、従来のモデルを上回る性能を達成した。 またこの正則化をオリジナルのBigGANに適用することでFIDを向上した。
従来のCR-GANでは、画像の変換は実画像にのみ適用し、合成画像には適用しておらず全体としてバランス悪かった。またGeneratorが、人工的な特徴量の変換を学習してしまわないように、Discriminatorにのみ正則化を行い、また変換自体も画像にのみ適用していた。
そこで2つの正則化を導入し、Generator・合成画像・潜在変数にもCRを適用した。 1つ目が、Discriminatorの学習時に実画像だけでなく合成画像にも適用可能なbalanced Consistency Regularization(bCR) 2つ目が、潜在変数の変動に対してGeneratorとDiscriminatorが鋭敏に反応してしまうことを防ぐlatent Consistency Regularization(zCR)
CR-GANでは、変換Tを適用するのは実画像に対してのみであるため、Discriminatorはこの人工的に操作された特徴も実画像の特徴だと学習してしまう可能性がある。結果的に、GeneratorはDiscriminatorを騙すために、この人工的な特徴を生成するようになってしまう。
以下がそのサンプル。
そこで実画像に合わせて、合成画像に対してもCR正則化を適用するアルゴリズムを提案した。
潜在変数にも変換Tを適用することで、潜在変数が微小に変動した際に、Discriminatorから出力される合成画像の分類確率も変化しないようにすることが狙い(似た画像には似た出力をしてほしい)。
しかしDiscriminatorにこの損失を与えるだけでは、単にGeneratorが潜在変数が微小に変化しても同じ画像を生成するだけなので、多様性を求めるために、元の潜在変数と変換Tをかけた潜在変数から生成された画像のL2損失が最大化するように学習していく。
この2つの損失関数のバランスをとることで性能が向上することを確認した。
ほかの正則化手法との比較を行っている。
教師なしタスクでの結果を見ると非常に性能がいい。
各データセットに対して条件なしの画像生成タスクを行い、いくつかの正則化手法と比較した結果を見ても、どの手法よりも性能が高い
条件付きタスクで、BigGANにICRを適用した結果を見るとFIDが大幅に改善している。
疑似コードを見てわかるように、実装もシンプル 何かのタスクで試してみる。
論文へのリンク
[arXiv:2002.04724] Improved Consistency Regularization for GAN
著者・所属機関
Zhengli Zhao, Sameer Singh, Honglak Lee, Zizhao Zhang, Augustus Odena, Han Zhang
投稿日時(YYYY-MM-DD)
2020-02-11
1. どんなもの?
Discriminatorにのみ適用していたConsistency Regularization(CR)正則化を改善し、Generatorによる合成画像、潜在変数、Generator自身にも適用できるImproved Consistency Regularization(ICR)を提案した。
教師なしタスクと教師ありタスクにおいて、従来のモデルを上回る性能を達成した。 またこの正則化をオリジナルのBigGANに適用することでFIDを向上した。
2. 先行研究と比べてどこがすごいの?
従来のCR-GANでは、画像の変換は実画像にのみ適用し、合成画像には適用しておらず全体としてバランス悪かった。またGeneratorが、人工的な特徴量の変換を学習してしまわないように、Discriminatorにのみ正則化を行い、また変換自体も画像にのみ適用していた。
そこで2つの正則化を導入し、Generator・合成画像・潜在変数にもCRを適用した。 1つ目が、Discriminatorの学習時に実画像だけでなく合成画像にも適用可能なbalanced Consistency Regularization(bCR) 2つ目が、潜在変数の変動に対してGeneratorとDiscriminatorが鋭敏に反応してしまうことを防ぐlatent Consistency Regularization(zCR)
3. 技術や手法の"キモ"はどこにある?
3.1 Balanced Consistency Regularization (bCR)
CR-GANでは、変換Tを適用するのは実画像に対してのみであるため、Discriminatorはこの人工的に操作された特徴も実画像の特徴だと学習してしまう可能性がある。結果的に、GeneratorはDiscriminatorを騙すために、この人工的な特徴を生成するようになってしまう。
以下がそのサンプル。
そこで実画像に合わせて、合成画像に対してもCR正則化を適用するアルゴリズムを提案した。
3.2 Latent Consistency Regularization (zCR)
潜在変数にも変換Tを適用することで、潜在変数が微小に変動した際に、Discriminatorから出力される合成画像の分類確率も変化しないようにすることが狙い(似た画像には似た出力をしてほしい)。
しかしDiscriminatorにこの損失を与えるだけでは、単にGeneratorが潜在変数が微小に変化しても同じ画像を生成するだけなので、多様性を求めるために、元の潜在変数と変換Tをかけた潜在変数から生成された画像のL2損失が最大化するように学習していく。
この2つの損失関数のバランスをとることで性能が向上することを確認した。
4. どうやって有効だと検証した?
ほかの正則化手法との比較を行っている。
教師なしタスクでの結果を見ると非常に性能がいい。
各データセットに対して条件なしの画像生成タスクを行い、いくつかの正則化手法と比較した結果を見ても、どの手法よりも性能が高い
条件付きタスクで、BigGANにICRを適用した結果を見るとFIDが大幅に改善している。
5. 議論はあるか?
6. 次に読むべき論文はあるか?
論文情報・リンク