Blur, Noise, and Compression Robust Generative Adversarial Networks

論文へのリンク

[arXiv:2003.07849] Blur, Noise, and Compression Robust Generative Adversarial Networks

著者・所属機関

Takuhiro Kaneko, Tatsuya Harada

The University of Tokyo
RIKEN

投稿日時（YYYY-MM-DD）

2020-03-17

1. どんなもの？

ぼかしやノイズ、圧縮などが導入された劣化画像のみを使用して鮮明な画像を復元するタスクにおいて、これらの劣化効果をデータから自動的に学習させるBNCR-GANを提案した。JPEGやぼかしなどの非可逆特性に対処するため、劣化効果の導入を制御するスイッチ構造を提案した。

2. 先行研究と比べてどこがすごいの？

劣化させた画像からrefineされた画像を生成するタスクにおいて、従来のGANでは学習データの劣化（ノイズ、ぼかし、圧縮など）も学習してしまい、生成された結果にも劣化現象が発生していた。

この課題に対処するためにいくつかの手法が提案されてきた。モデルに対して劣化現象を事前分布として与えたり、劣化画像と元の画像とで教師あり学習をおこなったり。

これらと異なる手法としてAmbientGANが提案されており、Generatorによって劣化現象を再現し、Discriminatorに劣化している本物画像と偽物画像を識別させることで、画像を復元させるモデルを学習させている。

しかしこのモデルは画像のぼかし現象にしか対応していない。本論文では、ぼかし以外の劣化現象（ノイズ、圧縮）に対処可能なモデルを構築し、これらのモデルを1つにまとめ複数の劣化現象に対応可能なBNCR-GANを提案した。

3. 技術や手法の"キモ"はどこにある？

3.1 問題設定

ぼかし・ノイズ・圧縮を含めた画像の変換は以下の数式で表現できる。

既存のAmbientGANではこれらの係数を事前に設定する必要があり、NR-GANはノイズによる劣化に特化したものであった。

3.2 Blur Robust GAN: BR-GAN

AmbientGANでは事前にぼかしを導入するためのカーネル情報kを設定する必要がった(a)。ここから発展させ、生成された画像に対して適用するカーネルをデータから学習させるBR-GANを提案した(b)。

データごとにぼかしをどの程度導入するのか制御するために、ぼかしのためのカーネルと何もしない恒等カーネルを、データに適応してスイッチする構造を提案した(c)。

損失関数には、ぼやけている本物の画像と、生成された画像にぼかしを導入した画像でを使用し、Discriminatorでこれらの画像を識別させている。

マスクは以下の数式で表現される。ぼかしカーネルを生成するGeneratorとマスクを生成するGeneratorの2つで構成されており、0から1の間をとるマスクを使用して、どの程度ぼかしを導入するのか制御している。

3.3 Compression robust GAN: CR-GAN

次に圧縮操作ψと圧縮率qを学習するCR-GANを提案した。

損失関数の考え方はBR-GANと同様であり、圧縮されている本物画像と、生成された画像に圧縮操作を行った画像をDiscriminatorが識別できるように学習させていく。

単に圧縮操作を行うGeneratorを採用しただけでは圧縮がない場合の画像を生成することができない。そこで圧縮された画像と元の画像とのバランスを調整するスイッチ構造を導入した。

3.4 Blur, noise, and compression robust GAN: BNCR-GAN

最終的に3つのモデルを組み合わせて、劣化画像のみから画像をrefineするネットワークBNCR-GANを提案した。

既存のAmbientGANと大きく異なるのは、ぼかし・ノイズ・圧縮の情報を事前分布として与える必要がなく、使用したデータから自動的に学習する点である。

損失関数もこれら3つのネットワークの組み合わせであり、それぞれの劣化操作をGeneratorで表現している。

複数の非可逆操作を組み合わせるために、ぼかしや圧縮を行う前後で画像が大きく変化しないように正則化項を導入した。

式(7)は、導入するぼかしが弱くなるほどに係数が大きくなり、式(8)は、圧縮率が0％（ほとんど元の画像）に近いほどに係数が大きくなる。つまりぼかし効果や圧縮効果が弱い場合に重みを付けている。

4. どうやって有効だと検証した？

ぼかしを導入したCIFAR-10データセットで各モデルのFIDを比較した。様々なぼかしの手法を導入した画像に対して比較すると、どのデータに対してもBR-GANが最も高い性能を発揮していることがわかる。

圧縮を行ったCIFAR-10データセットで各モデルのFIDを比較した。圧縮率を変化させた画像に対して比較すると、提案しているCR-GANやBNCR=GANが高い性能を発揮していることがわかる。

ぼかし・ノイズ・圧縮を導入したCIFAR-10データセットで各モデルのFIDを比較した。すべての劣化操作を行った画像に対して、提案しているBNCR-GANが高い性能を発揮していることがわかる。

より複雑なデータセットであるFFHQに対して劣化操作を行い、各モデルのFIDを比較した。すべての状況下で本研究で提案しているモデルが最も高い性能を発揮していることがわかる。

実際に生成された画像を比較すると、より鮮明な画像を復元できていることがわかる。

shimopino / papers-challenge