Open shimopino opened 4 years ago
[arXiv:2005.13580] Network Fusion for Content Creation with Conditional INNs
Robin Rombach, Patrick Esser, Björn Ommer
2020-05-27
SOTAを達成している画像生成モデルなどは多くのGPUや数週間に渡す学習を必要とし、作業の自動化といった期待されているタスクに適用することは難しい。
本研究では自然言語処理におけるBERTや画像生成におけるBigGANなどの各分野に特化したモデル同士を結合させて、全く異なるタスクに適用できる手法INNを提案した。
具体的には各モデル間の潜在表現で条件づけられた、ドメイン変換を行うためのモデルINNに敵対的学習を適用している。
本研究ではあるドメインxに最適化されたモデルと異なるドメインyに最適化されたモデル同士を、それらの潜在表現zを通してドメイン変換することを目的としている。
ドメインXのモデルから得られたクエリxに対してドメインYのモデルから抽出した対応する生成データyが存在すると前提しており、本モデルの目的はこの条件付き確率分布P(y|x)をニューラルネットでQ(y|x)に近似することである。
この目的を達成するために、それぞれのドメインのモデルfとgを2つの関数に分割 (f(x)=Ψ(Φ(x)), g(y)=Λ(Θ(y))) した上でそれぞれの潜在表現 (zΦ=Φ(x), zΘ=Θ(y)) を変換できる関数τを学習することを目指していく。
計算の流れは単純であり、上記で記載しているようにドメインXのクエリxから対応する潜在表現zΦを計算し、関数τを用いて異なるドメインYの潜在表現zΘに変換した後で、関数Λで対応するドメインYのデータを生成する。
この計算の問題としてはドメインXからドメインYに変換する関数はマルチモーダルな関数になることである。つまり(1)クエリxに対して無数の対応するyが存在するが、(2)同時にクエリxに対して関数fは不変な出力を持たせる必要がある。
これは顔が認識で言えば、ポーズや光の当たり具合などの複数の入力xに対して、同一の対応データyを常に出力できる関数fが、学習がうまく行っていると考えられることと同じである。
project page
論文へのリンク
[arXiv:2005.13580] Network Fusion for Content Creation with Conditional INNs
著者・所属機関
Robin Rombach, Patrick Esser, Björn Ommer
投稿日時(YYYY-MM-DD)
2020-05-27
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
SOTAを達成している画像生成モデルなどは多くのGPUや数週間に渡す学習を必要とし、作業の自動化といった期待されているタスクに適用することは難しい。
本研究では自然言語処理におけるBERTや画像生成におけるBigGANなどの各分野に特化したモデル同士を結合させて、全く異なるタスクに適用できる手法INNを提案した。
具体的には各モデル間の潜在表現で条件づけられた、ドメイン変換を行うためのモデルINNに敵対的学習を適用している。
3. 技術や手法の"キモ"はどこにある?
本研究ではあるドメインxに最適化されたモデルと異なるドメインyに最適化されたモデル同士を、それらの潜在表現zを通してドメイン変換することを目的としている。
ドメインXのモデルから得られたクエリxに対してドメインYのモデルから抽出した対応する生成データyが存在すると前提しており、本モデルの目的はこの条件付き確率分布P(y|x)をニューラルネットでQ(y|x)に近似することである。
この目的を達成するために、それぞれのドメインのモデルfとgを2つの関数に分割 (f(x)=Ψ(Φ(x)), g(y)=Λ(Θ(y))) した上でそれぞれの潜在表現 (zΦ=Φ(x), zΘ=Θ(y)) を変換できる関数τを学習することを目指していく。
3.1 Learning the translation x → y
計算の流れは単純であり、上記で記載しているようにドメインXのクエリxから対応する潜在表現zΦを計算し、関数τを用いて異なるドメインYの潜在表現zΘに変換した後で、関数Λで対応するドメインYのデータを生成する。
Invariances of f enable control of content creation
この計算の問題としてはドメインXからドメインYに変換する関数はマルチモーダルな関数になることである。つまり(1)クエリxに対して無数の対応するyが存在するが、(2)同時にクエリxに対して関数fは不変な出力を持たせる必要がある。
これは顔が認識で言えば、ポーズや光の当たり具合などの複数の入力xに対して、同一の対応データyを常に出力できる関数fが、学習がうまく行っていると考えられることと同じである。
Learning a translation between model representations
4. どうやって有効だと検証した?
5. 議論はあるか?