Rethinking the Truly Unsupervised Image-to-Image Translation

shimopino commented 4 years ago

論文へのリンク

[arXiv:2006.06500] Rethinking the Truly Unsupervised Image-to-Image Translation

著者・所属機関

Kyungjune Baek, Yunjey Choi, Youngjung Uh, Jaejun Yoo, Hyunjung Shim

Yonsei University
Clova AI Research, NAVER Corp.
EPFL

投稿日時（YYYY-MM-DD）

2020-06-11

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

画像変換を行う手法としては変換前後の画像をペアとして学習を行う教師あり形式と、各ドメインのラベルを使用して学習を行う教師なし形式が存在する（例：ペアでない犬と猫の画像群から学習させる）。

教師あり形式では当然ではあるが、教師なし形式であっても多くの画像にラベルを付与する必要があり、FFHQのような大規模データセットを構築することは難しい。

本研究では、教師なし形式としてペアデータもラベルデータも使用しない方法を提案しており、複数のドメインデータが混ざり合ったデータセット (以下の図のc) から画像変換を行うことが可能なモデルを提案した。

本研究では、(1)データセット内のドメイン自体を識別すること、(2)各入力画像のスタイルと中身をベクトル化できること、(3)識別されたドメイン間で画像変換を行えることを目的としている。

3. 技術や手法の"キモ"はどこにある？

データセットの条件としてはドメインラベルyが存在しておらず、K (>=2) 個以上のドメインから抽出された画像Xで構築されていることを考える。

疑似的なラベルを計算するモジュールとスタイルを特徴ベクトルに変換するモジュールを組み合わせたguiding network (E)を利用する。スタイルベクトルをGeneratorに渡すことで対象のドメインのスタイルに変換し、疑似ラベルをDiscriminatorに渡すことでドメインの検出を行う。

3.1 Learning to produce domain labels and encode style features

Unsupervised domain classification

本手法では先行研究[X. J et al, 2019]に基づいている。

3.2 Image-to-image translation with the domain guidance

4. どうやって有効だと検証した？

5. 議論はあるか？

shimopino commented 4 years ago

ドメインラベルの識別に使用したモデル

[18] X. Ji, J. F. Henriques, and A. Vedaldi. Invariant information clustering for unsupervised image classification and segmentation. In Proceedings of the IEEE International Conference on Computer Vision, pages 9865–9874, 2019. 2, 3, 4

shimopino commented 4 years ago

https://github.com/clovaai/tunit

shimopino / papers-challenge