Open shimopino opened 4 years ago
[arXiv:2002.05638] GANILLA: Generative Adversarial Networks for Image to Illustration Translation
Samet Hicsonmez, Nermin Samet, Emre Akbas, Pinar Duygulu
2020-02-13
子供向けの絵本を新たなドメイン領域としてUnpaired画像変換を調査した。
従来のimage2image変換では、スタイル変換やコンテンツ変換などが可能だったが、これらの変換を同時にすることができなかった。そこでスタイル変換とコンテンツ変換のバランスをとるネットワークを導入した。
また、unpaired image2imageタスクでは評価指標が確立していないため、少数の画像を使用した主観的かつ質的な分析しか行われていなかった。そこでスタイルとコンテンツを分類する2つのネットワークを導入し、量的な比較を行う新たなフレームワークを提案した。
従来の手法を見てみると、CycleGANではスタイルの特徴をうまく捉えることができているが画像内の物体を保持できていない。またDualGANでは画像内の物体は保持できているが、スタイルを保持できていない。
提案手法のGANILLAは、画像内の物体の形状を保持するために、入力に近い層と出力に近い層の特徴量を混ぜ合わせることで、物体のエッジやコーナーといった形状を保ったまま、スタイル変換を行うことが可能になる。
ネットワークは入力画像をダウンサンプルしていく部分と、圧縮された特徴量を浅い層の特徴量と合わせてアップサンプルしていく部分で構成されている。
ほかの手法のモデルとの比較は以下の図であらわされる。
なおDiscriminatorに関しては70x70のPatchGANを採用している。
損失関数に関しては、通常のGANで使用されるMinimax損失関数と、Cycle Consistency損失関数の組み合わせを採用している。
使用したデータセットには、以下のような画像が含まれている。 24人の作家の363冊の絵本から9500枚の画像を収集している。
スタイル変換とコンテンツ変換に対して2つのネットワーク(Style-CNN、Content-CNN)を使用して量的な評価を実施した。
各手法で生成された画像を見てみると、従来の手法ではスタイル変換のみうまくいっていたり、コンテンツ変換のみうまくいっていたりすることがわかる。
ユーザー調査も実施しており以下の3つのタスクを実施するように指示されている。
Q: 提示されている画像は、絵本の著者によって描かれたかどうか? Q: 4つの手法で生成された画像をランク付ける Q: 画像の内容を選択する
DualGANのランクがGANILLAを超えているのは、DualGANではスタイル変換がうまくいっておらず、結果として自然に見える画像が生成されているからだと考えられる。
Style-CNNの学習は以下のように行う。
この正解ラベルの構成は、生成画像のスタイル変換がうまくいかなかった場合には、自然画像と分類されるように設定されている。
Content-CNNの学習は以下のように行う。
コンテンツを保持できている場合にはスタイル変換した後も、自然画像だと分類されるように設定している。
GANILLAがスタイルとコンテンツの両方をバランスよく保持していることがわかる。
Dr. Seussの絵本はほとんどが木炭画であるか、単純な色なため変換に失敗していると考えられる。CartoonGANで使用されていたデータセットは、1つの動画から抽出された画像であったが、今回の絵本は複数の作家の複数の絵本から抽出されたものであり、より難易度の高いタスクとなっている。
生成画像例
pytorch implementation of GANILLA
論文へのリンク
[arXiv:2002.05638] GANILLA: Generative Adversarial Networks for Image to Illustration Translation
著者・所属機関
Samet Hicsonmez, Nermin Samet, Emre Akbas, Pinar Duygulu
投稿日時(YYYY-MM-DD)
2020-02-13
1. どんなもの?
子供向けの絵本を新たなドメイン領域としてUnpaired画像変換を調査した。
従来のimage2image変換では、スタイル変換やコンテンツ変換などが可能だったが、これらの変換を同時にすることができなかった。そこでスタイル変換とコンテンツ変換のバランスをとるネットワークを導入した。
また、unpaired image2imageタスクでは評価指標が確立していないため、少数の画像を使用した主観的かつ質的な分析しか行われていなかった。そこでスタイルとコンテンツを分類する2つのネットワークを導入し、量的な比較を行う新たなフレームワークを提案した。
2. 先行研究と比べてどこがすごいの?
従来の手法を見てみると、CycleGANではスタイルの特徴をうまく捉えることができているが画像内の物体を保持できていない。またDualGANでは画像内の物体は保持できているが、スタイルを保持できていない。
提案手法のGANILLAは、画像内の物体の形状を保持するために、入力に近い層と出力に近い層の特徴量を混ぜ合わせることで、物体のエッジやコーナーといった形状を保ったまま、スタイル変換を行うことが可能になる。
3. 技術や手法の"キモ"はどこにある?
ネットワークは入力画像をダウンサンプルしていく部分と、圧縮された特徴量を浅い層の特徴量と合わせてアップサンプルしていく部分で構成されている。
ほかの手法のモデルとの比較は以下の図であらわされる。
なおDiscriminatorに関しては70x70のPatchGANを採用している。
損失関数に関しては、通常のGANで使用されるMinimax損失関数と、Cycle Consistency損失関数の組み合わせを採用している。
4. どうやって有効だと検証した?
4.1 データセット
使用したデータセットには、以下のような画像が含まれている。 24人の作家の363冊の絵本から9500枚の画像を収集している。
スタイル変換とコンテンツ変換に対して2つのネットワーク(Style-CNN、Content-CNN)を使用して量的な評価を実施した。
4.2 質的な比較
各手法で生成された画像を見てみると、従来の手法ではスタイル変換のみうまくいっていたり、コンテンツ変換のみうまくいっていたりすることがわかる。
ユーザー調査も実施しており以下の3つのタスクを実施するように指示されている。
Q: 提示されている画像は、絵本の著者によって描かれたかどうか? Q: 4つの手法で生成された画像をランク付ける Q: 画像の内容を選択する
DualGANのランクがGANILLAを超えているのは、DualGANではスタイル変換がうまくいっておらず、結果として自然に見える画像が生成されているからだと考えられる。
4.3 量的な評価
Style-CNN
Style-CNNの学習は以下のように行う。
この正解ラベルの構成は、生成画像のスタイル変換がうまくいかなかった場合には、自然画像と分類されるように設定されている。
Content-CNN
Content-CNNの学習は以下のように行う。
コンテンツを保持できている場合にはスタイル変換した後も、自然画像だと分類されるように設定している。
GANILLAがスタイルとコンテンツの両方をバランスよく保持していることがわかる。
5. 議論はあるか?
Dr. Seussの絵本はほとんどが木炭画であるか、単純な色なため変換に失敗していると考えられる。CartoonGANで使用されていたデータセットは、1つの動画から抽出された画像であったが、今回の絵本は複数の作家の複数の絵本から抽出されたものであり、より難易度の高いタスクとなっている。
6. 次に読むべき論文はあるか?
論文情報・リンク
生成画像例