shimopino / papers-challenge

Paper Reading List I have already read
30 stars 2 forks source link

GANILLA: Generative Adversarial Networks for Image to Illustration Translation #9

Open shimopino opened 4 years ago

shimopino commented 4 years ago

論文へのリンク

[arXiv:2002.05638] GANILLA: Generative Adversarial Networks for Image to Illustration Translation

著者・所属機関

Samet Hicsonmez, Nermin Samet, Emre Akbas, Pinar Duygulu

投稿日時(YYYY-MM-DD)

2020-02-13

1. どんなもの?

子供向けの絵本を新たなドメイン領域としてUnpaired画像変換を調査した。

従来のimage2image変換では、スタイル変換やコンテンツ変換などが可能だったが、これらの変換を同時にすることができなかった。そこでスタイル変換とコンテンツ変換のバランスをとるネットワークを導入した。

また、unpaired image2imageタスクでは評価指標が確立していないため、少数の画像を使用した主観的かつ質的な分析しか行われていなかった。そこでスタイルとコンテンツを分類する2つのネットワークを導入し、量的な比較を行う新たなフレームワークを提案した。

2. 先行研究と比べてどこがすごいの?

従来の手法を見てみると、CycleGANではスタイルの特徴をうまく捉えることができているが画像内の物体を保持できていない。またDualGANでは画像内の物体は保持できているが、スタイルを保持できていない。

提案手法のGANILLAは、画像内の物体の形状を保持するために、入力に近い層と出力に近い層の特徴量を混ぜ合わせることで、物体のエッジやコーナーといった形状を保ったまま、スタイル変換を行うことが可能になる。

image

3. 技術や手法の"キモ"はどこにある?

ネットワークは入力画像をダウンサンプルしていく部分と、圧縮された特徴量を浅い層の特徴量と合わせてアップサンプルしていく部分で構成されている。

image

ほかの手法のモデルとの比較は以下の図であらわされる。

image

なおDiscriminatorに関しては70x70のPatchGANを採用している。

損失関数に関しては、通常のGANで使用されるMinimax損失関数と、Cycle Consistency損失関数の組み合わせを採用している。

4. どうやって有効だと検証した?

4.1 データセット

使用したデータセットには、以下のような画像が含まれている。 24人の作家の363冊の絵本から9500枚の画像を収集している。

image

スタイル変換とコンテンツ変換に対して2つのネットワーク(Style-CNN、Content-CNN)を使用して量的な評価を実施した。

4.2 質的な比較

各手法で生成された画像を見てみると、従来の手法ではスタイル変換のみうまくいっていたり、コンテンツ変換のみうまくいっていたりすることがわかる。

image

ユーザー調査も実施しており以下の3つのタスクを実施するように指示されている。

Q: 提示されている画像は、絵本の著者によって描かれたかどうか? Q: 4つの手法で生成された画像をランク付ける Q: 画像の内容を選択する

image

DualGANのランクがGANILLAを超えているのは、DualGANではスタイル変換がうまくいっておらず、結果として自然に見える画像が生成されているからだと考えられる。

4.3 量的な評価

Style-CNN

Style-CNNの学習は以下のように行う。

  1. 絵本から一部の領域(100x100とか)をランダムに切り取る
  2. 正解ラベルは、10人の著者と自然画像の合計11クラスで構成する
  3. 分類器のテストは生成画像のみを使用する

この正解ラベルの構成は、生成画像のスタイル変換がうまくいかなかった場合には、自然画像と分類されるように設定されている。

Content-CNN

Content-CNNの学習は以下のように行う。

  1. 自然画像に近いクラス10個(森、町など)選択する
  2. SUNデータセットから4150枚を学習データ、500枚をテストデータに使用する
  3. 学習で使用した10人の著者以外の全画像を負例のクラスとして含める

コンテンツを保持できている場合にはスタイル変換した後も、自然画像だと分類されるように設定している。

image

GANILLAがスタイルとコンテンツの両方をバランスよく保持していることがわかる。

5. 議論はあるか?

Dr. Seussの絵本はほとんどが木炭画であるか、単純な色なため変換に失敗していると考えられる。CartoonGANで使用されていたデータセットは、1つの動画から抽出された画像であったが、今回の絵本は複数の作家の複数の絵本から抽出されたものであり、より難易度の高いタスクとなっている。

6. 次に読むべき論文はあるか?

論文情報・リンク

生成画像例

image

shimopino commented 4 years ago

pytorch implementation of GANILLA