ネットワークで欠落しやすい特定の画像周波数帯を補間するように作用する Focal Frequency Loss [FFL] を提案。
Focal Frequency Loss により、生成モデルで発生しがちな生成画像における縞模様のアーティファクトやぼやけをを軽減させることを実現している
2. 先行研究と比べてどこがすごいの?
生成モデル(noize-to-image や image-to-image など)においては、生成画像において縞模様のアーティファクトやぼやけが発生し、品質が劣化することが往々にして存在した。
本手法では、この縞模様のアーティファクトがネットワーク内で特定の画像周波数帯が欠落すること、ぼやけが高周波層が欠落することで生じていることを示し、ネットワークで欠落しやすい特定の画像周波数帯を補間するように作用する Focal Frequency Loss を提案している。
そして、この Focal Frequency Loss により VAE や GAN を活用した生成モデルにおいて、縞模様のアーティファクトやぼやけを軽減させることを実現している。
3. 技術や手法の"キモ"はどこにある?
Focal Frequency Loss
結論としては Focal Frequency Loss [FFL] は、以下の式で定義される
この Focal Frequency Loss により、特定の周波数帯が欠落することによって生じる生成画像における縞模様のアーティファクトや、高周波帯が失われることで生じる画像のぼやけを軽減する効果がある
周波数帯に応じた重み付けと Focal Frequency Loss
(8) 式の距離指標を最小化するように損失関数を定義すると、各周波数の重みが同じであるために、特定の欠落した周波数を補間するような効果は得られない。
本手法では、Focal Loss などにインスパイアされて、特定の欠落した周波数に大きな重みをおいてその他の周波数には小さな重みをおくようなスペクトルの重み行列 w を導入する。
※ Focal Loss : 論文「Focal Loss for Dense Object Detection」
このスペクトルの重み行列 w は、学習中のネットワークにおける各周波数分布 の不均一状態に応じて動的に決定される重み行列であり、以下の式のように定式化される。
最終的に Focal Frequency Loss [FFL] は、(8) 式と (9) 式を重み付き線形結合した以下の式で定義される。
この Focal Frequency Loss により、
ネットワークが苦手とする周波数帯(=欠落した周波数帯)を補間するようにネットワークに働きかけるので、
特定の周波数帯が欠落することによって生じる生成画像における縞模様のアーティファクトや、高周波帯が失われることで生じる画像のぼやけを軽減する効果がある
実際に生成モデルにおいて Focal Frequency Loss を計算する際には、以下のような手順を行う。
① 正解画像と生成画像それぞれに対して、2次元離散フーリエ変換で周波数表現に変換する
② 各周波数値 F(u,v) に対して正規化を行い、F(u,v) が微分可能な滑らかさな勾配を持つようにする
③ Focal Frequency Loss の式 (10) に従って、Focal Frequency Loss を計算する
4. どうやって有効だと検証した?
Focal Frequency Loss 有無での生成画像の定性検証
VAE の生成器で画像生成において、Focal Frequency Loss 有りにすると画像のぼやけが軽減していることがわかる
pix2pix の生成器においても、Focal Frequency Loss 有りにすると、画像のぼやけや不自然なアーティファクトが軽減していることがわかる。
SPADE の生成器においても、Focal Frequency Loss 有りにすると、画像のぼやけや不自然なアーティファクトが軽減していることがわかる。
Focal Frequency Loss 有無での生成画像の定量検証
VAE の生成器で画像生成において、Focal Frequency Loss 有りにすると品質スコアが向上していることがわかる
pix2pix の生成器においても、Focal Frequency Loss 有りにすると、品質スコアが向上していることがわかる
SPADE の生成器においても、Focal Frequency Loss 有りにすると、品質スコアが向上していることがわかる
5. 議論はあるか?
VAE での生成モデルに比べて GAN での生成モデルにおいては Focal Frequency Loss による品質向上効果がそれほど大きくない印象だが、生成モデル全般に適用できる損失関数であるので、応用範囲の広さの面で有用そう。
論文中には記載がないが、Focal Frequency Loss 計算による計算コストがどの程度になるのかが気になる
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
Focal Frequency Loss 結論としては Focal Frequency Loss [FFL] は、以下の式で定義される
以下、この FFL 導入の詳細を説明
【前提知識】画像の周波数表現 離散フーリエ変換(DFT)は、離散有限信号を複数の周波数信号の重ね合わせ表現に変換する手法であり、離散有限信号を画像にした場合は、以下の式のように定式化される。
Frequency Distance 欠落した周波数を補間するような損失関数を定義するには、周波数領域における微分可能な距離指標が必要になる。 まず離散フーリエ変換(DFT)の式を以下の式のように置き換える。
周波数帯に応じた重み付けと Focal Frequency Loss (8) 式の距離指標を最小化するように損失関数を定義すると、各周波数の重みが同じであるために、特定の欠落した周波数を補間するような効果は得られない。
本手法では、Focal Loss などにインスパイアされて、特定の欠落した周波数に大きな重みをおいてその他の周波数には小さな重みをおくようなスペクトルの重み行列 w を導入する。 ※ Focal Loss : 論文「Focal Loss for Dense Object Detection」
このスペクトルの重み行列 w は、学習中のネットワークにおける各周波数分布 の不均一状態に応じて動的に決定される重み行列であり、以下の式のように定式化される。
4. どうやって有効だと検証した?
Focal Frequency Loss 有無での生成画像の定性検証
Focal Frequency Loss 有無での生成画像の定量検証
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献