Open shimopino opened 4 years ago
[arXiv:2006.06500] Rethinking the Truly Unsupervised Image-to-Image Translation
Kyungjune Baek, Yunjey Choi, Youngjung Uh, Jaejun Yoo, Hyunjung Shim
2020-06-11
画像変換を行う手法としては変換前後の画像をペアとして学習を行う教師あり形式と、各ドメインのラベルを使用して学習を行う教師なし形式が存在する(例:ペアでない犬と猫の画像群から学習させる)。
教師あり形式では当然ではあるが、教師なし形式であっても多くの画像にラベルを付与する必要があり、FFHQのような大規模データセットを構築することは難しい。
本研究では、教師なし形式としてペアデータもラベルデータも使用しない方法を提案しており、複数のドメインデータが混ざり合ったデータセット (以下の図のc) から画像変換を行うことが可能なモデルを提案した。
本研究では、(1)データセット内のドメイン自体を識別すること、(2)各入力画像のスタイルと中身をベクトル化できること、(3)識別されたドメイン間で画像変換を行えることを目的としている。
データセットの条件としてはドメインラベルyが存在しておらず、K (>=2) 個以上のドメインから抽出された画像Xで構築されていることを考える。
疑似的なラベルを計算するモジュールとスタイルを特徴ベクトルに変換するモジュールを組み合わせたguiding network (E)を利用する。スタイルベクトルをGeneratorに渡すことで対象のドメインのスタイルに変換し、疑似ラベルをDiscriminatorに渡すことでドメインの検出を行う。
本手法では先行研究[X. J et al, 2019]に基づいている。
ドメインラベルの識別に使用したモデル
https://github.com/clovaai/tunit
論文へのリンク
[arXiv:2006.06500] Rethinking the Truly Unsupervised Image-to-Image Translation
著者・所属機関
Kyungjune Baek, Yunjey Choi, Youngjung Uh, Jaejun Yoo, Hyunjung Shim
投稿日時(YYYY-MM-DD)
2020-06-11
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
画像変換を行う手法としては変換前後の画像をペアとして学習を行う教師あり形式と、各ドメインのラベルを使用して学習を行う教師なし形式が存在する(例:ペアでない犬と猫の画像群から学習させる)。
教師あり形式では当然ではあるが、教師なし形式であっても多くの画像にラベルを付与する必要があり、FFHQのような大規模データセットを構築することは難しい。
本研究では、教師なし形式としてペアデータもラベルデータも使用しない方法を提案しており、複数のドメインデータが混ざり合ったデータセット (以下の図のc) から画像変換を行うことが可能なモデルを提案した。
本研究では、(1)データセット内のドメイン自体を識別すること、(2)各入力画像のスタイルと中身をベクトル化できること、(3)識別されたドメイン間で画像変換を行えることを目的としている。
3. 技術や手法の"キモ"はどこにある?
データセットの条件としてはドメインラベルyが存在しておらず、K (>=2) 個以上のドメインから抽出された画像Xで構築されていることを考える。
疑似的なラベルを計算するモジュールとスタイルを特徴ベクトルに変換するモジュールを組み合わせたguiding network (E)を利用する。スタイルベクトルをGeneratorに渡すことで対象のドメインのスタイルに変換し、疑似ラベルをDiscriminatorに渡すことでドメインの検出を行う。
3.1 Learning to produce domain labels and encode style features
Unsupervised domain classification
本手法では先行研究[X. J et al, 2019]に基づいている。
3.2 Image-to-image translation with the domain guidance
4. どうやって有効だと検証した?
5. 議論はあるか?