e4exp / paper_manager_abstract

0 stars 0 forks source link

Dual Contrastive Learning for Unsupervised Image-to-Image Translation #396

Open e4exp opened 3 years ago

e4exp commented 3 years ago

教師なし画像間翻訳タスクは,対になっていない学習データからソースドメインXとターゲットドメインYの間のマッピングを見つけることを目的としている. CUT(Contrastive Learning for Unpaired image-to-image Translation)は、両方の領域に対して1つのエンコーダのみを用いて、入力パッチと出力パッチの間の相互情報を最大化することで、教師なしの画像間翻訳をモデル化することで、最先端の結果をもたらしている。 本論文では、対照学習と二重学習設定(2つのエンコーダを利用)に基づいた新しい手法を提案し、対になっていないデータ間の効率的なマッピングを推論する。 さらに、CUTはモード崩壊の問題を抱えているが、我々の手法の変形により、この問題を効率的に解決することができる。 さらに、大規模なアブレーション研究を通じて、本手法の優位性を実証し、複数の困難な画像変換タスクにおいて、最近のアプローチと比較して優れた性能を示す。 最後に、教師なしの手法と教師ありの手法の間のギャップを効率的に埋めることができることを示します。

e4exp commented 3 years ago
  1. はじめに

画像間翻訳タスクは、ある領域から別の領域へ画像を変換することを目的としている。 例えば、馬からシマウマ、低解像度の画像から高解像度の画像、画像からラベル、写真から絵画、またはその逆などである。 画像から画像への変換は,スタイル変換[47, 20, 25, 35, 1],画像のインペインティング[37],カラー化[45],超解像[22, 44],デハージング[28],水中画像の復元[14],ノイズ除去[2]などの幅広い用途があるため,非常に注目されている. ペアデータのない教師なし画像間翻訳では、主な問題は、敵対損失[12]の制約が大幅に不足していること、つまり、2つの領域間に複数の可能なマッピングが存在するため、学習が不安定になり、その結果、翻訳がうまくいかないことです。 マッピングを制限するために、現代のアプローチであるCycleGAN [47]、DiscoGAN [23]、DualGAN [43]は、似たようなアイデアであるcycleconsistency [47]の仮定を用いている。 これは、ターゲットドメインからソースドメインに戻る逆マッピングを学習し、再構成画像が入力画像と同一であるかどうかを測定する。 cycle-consistency [47]の仮定は、変換された画像がターゲットドメインに類似したテクスチャ情報を持っていることを保証し、ジオメトリの変更を実行することに失敗します。 また、サイクルコンシステンシー[47]の仮定は、2つのドメイン間の関係を強制的にバイジェクション[27]にします。 これは通常、理想的ではありません。例えば、馬からシマウマへの画像変換タスクでは、再構成が忠実度の損失を介して制約され、画像の多様性が損なわれています。

この制約を解決するために,近年,自己教師付き表現学習の分野では,データの複数のビュー間の対照学習が最先端の性能を達成している[16, 5, 18, 34]. これに続いて,CUT [35] は,入力画像と出力画像の対応するパッチ間の相互情報を最大化するために,パッチベースの多層PatchNCE損失を用いて,対にならない画像間変換のための対照学習を導入した。 CUT [35]はコントラスト学習の効率性を実証しましたが、ある設計上の選択がその性能を制限していると考えています。 例えば、1つの埋め込みを2つの異なるドメインに使用しており、ドメインギャップを効率的に捉えられない可能性がある。 コントラスト学習をさらに活用し、サイクルコンシステンシー[47]の欠点を回避するために、我々はDCLGANと呼ばれるデュアルコントラスト学習アプローチを提案する。

DCLGANは、入力画像パッチと出力画像パッチの対応関係を別々の埋め込みを用いて学習することで、相互情報量を最大化することを目的としています。 ドメインごとに異なるエンコーダーと投影ヘッドを採用することで,一致度を最大化するために適切な埋め込みを学習する. また,双対学習[43]を用いることで,学習の安定化を図ることができる.

さらに、いくつかの設計上の選択を再検討し、小さなパッチを表すRGBピクセルをPatchNCEの損失で除去することが有益であることを発見しました。 また、幾何学的構造に厳密な制約がない場合、サイクルコンシステンシー[47]は不要であり、実際には直観的ではないことを示す。 最後に、SimDCLと呼ばれるDCLGANの変形は、モード崩壊を大幅に回避します。 本論文では、CycleGAN [47](形状変更時の性能制限)とCUT [35](モード崩壊といくつかの劣った結果に悩まされる)の限界を打ち破ることができる新しいフレームワークとその変形を紹介します。 広範な実験を通して、様々な一般的なタスクにおいて、いくつかの最先端の手法と比較して、本手法が量的・質的に優れていることを実証しました。 さらに、コントラスト学習が自己教師付き学習の分野で行ってきたように、本手法が教師なしの手法と教師付きの手法の間のギャップを埋めることに成功したことを示しています。 また、包括的なアブレーション研究により、DCLGANの有効性を実証しています。我々のコードはGitHubで公開されています。 https://github.com/JunlinHan/DCLGAN

e4exp commented 3 years ago

image image

e4exp commented 3 years ago
  1. 結論

我々は、教師なしの不対向画像間翻訳において、二重設定によりコントラスト学習をより効果的に活用できることを示す。 また、対照学習をより効果的にするために、いくつかの重要な設計を修正した。 さらに、DCLGANの改良版であるSimDCLは、モード崩壊を緩和する。 最後に、CityScapeのような挑戦的なデータセットにおいて、我々の手法が、自己教師付き表現学習の分野における対照学習と同様に、教師なしの手法と教師付きの手法の間のギャップを大きく縮めることができることを示す。