INFO

author

Edgar Scho ̈nfeld¹, Bernt Schiele², Anna Khoreva¹

affiliation

¹Bosch Center for Artificial Intelligence, ²Max Planck Institute for Informatics

conference or year

CVPR 2020

link

arXiv [実装]()

概要

U-NetをベースとしたDiscriminatorを提案. グローバルな画像フィードバックを提供することで, 合成された画像のグローバルなcoherenceを維持しながら, 生成器にピクセルごとの詳細なfeedbackを提供することを可能にした. realとfakeをCutMixしたデータ拡張に基づくピクセル単位のconsistency regulalizationを提案し, U-Net識別器がreal imageとfake imageの間のsemanticおよび構造的な変化により焦点を当てるように促す. BigGANのベースラインと比較すると, FFHQ, CelebA, 提案されたCOCO-Animalsで平均2.7のFIDの改善.

提案手法

最近の進歩にもかかわらず, 大域的な意味的コヒーレンス, long-range構造, 細部の正確さを持つ画像を合成するための学習は依然として困難である. U-Net識別器のピクセルごとのフィードバックを利用して, さらにこれらのCutMix画像を一貫性のある正規化に利用し, CutMix変換の下での識別器のピクセルごとの一貫性のない予測にペナルティを与える. これにより識別器は, real imageとfake imageの間の意味的・構造的変化に焦点を当て, 領域保存的な摂動にはあまり注意を払わなくなる. さらに, デコーダのlocalization能力を向上させるのにも役立つ.

識別器ネットワークをU-Netベースのアーキテクチャに変更し, 画素ごとの識別器フィードバックにより, グローバル構造とローカル構造の両方をよりよく捉えることができるようにすることを提案.

デコーダL_{D^U_enc}の損失は, 全画素の平均決定値として計算

画像を合成しながら大域的な構造と局所的な詳細の両方に焦点を当て, より強力な識別器を騙すようGeneratorを促す.

U-Net識別器のピクセル出力空間において, CutMix変換の下での一貫性正則化を提案する. これにより，定位品質を向上させ，実在領域と偽物領域の間の非識別的な差異に着目することができるようになる．encoderによるクラス分類において, CutMixされたimageはclass labelをfake imageとして扱う.

Cut-Mix Imageにおける D^U_decのピクセル単位の出力とrealとfake imageの D^U_decからの出力をCut-Mixしたもののlossをとることで識別器の一貫性のない予測にペナルティを与える.

検証

定量評価

FFHQのunconditional caseでは7.48FIDで通常のBIGGANと比較し4.0FIDの向上. またISにおいてもBIGGANを凌ぐ. COCO-Animalsのconditional image generation settingでは13.73FIDでBIGGANと比較し2.64FIDの向上. 同様にIS scoreも11.77から12.29への向上.

定性評価

口の開き方や, 髪の毛の長さが段階的に変化していることからinterpolationがsemanticにスムーズであることがわかる.

高品質で多様な画像が生成されていることがわかる.

これらよりU-Net GANはunconditional,　class-conditional どちらの画像生成に有効であることが確認された．

ablation study

全体的に,提案された U-Net GANの構成要素は, FIDの面でパフォーマンスを向上させていることがわかる.

SoTAとの比較

新規性

U-Netをベースとした識別器の代替アーキテクチャを提案. CutMixに基づいたU-Net based な識別器のための一貫性を保つ正則化技術を導入. 提案された変更により, より強力な識別器が得られ, 生成器はグローバルとローカルなrealizmを維持したまま様々なレベルのdetailを持つ画像を合成することを可能にした.

IsHYuhi / PaperSummary

A U-Net Based Discriminator for Generative Adversarial Networks #4