Contrastive Learning for Unpaired Image-to-Image Translation

Taesung Park, Alexei A. Efros, Richard Zhang, Jun-Yan Zhu

2020-07-30

1. どんなもの？

ドメイン変換タスクの1つである画像変換とは、入力画像中の物体の構造や姿勢などの中身を変化させずに、外見のみを異なるドメイン変換するタスクである。

この画像変換を行うためには、全体構造などのドメイン変換をしても変化しないようにする部分と、外見のように変化させなければならない部分を分離する必要がある。

CycleGANなどのモデルでは、外見の変化には敵対的損失関数を使用し、構造の保持にはCycle－Consistency損失を使用している。しかしCycle－Consistency損失は、2つのドメイン間の関係が1対1であることを想定しており、非常に制約のある損失関数である。

本研究では、Cycle－Consistency損失に代わる、構造を保持することが可能な手法を提案した。具体的には、入力画像と出力画像の対応するパッチ領域の相互情報量を最大化することで、構造が変化しないように学習を行っていく。

本手法は教師なしでのドメイン変換であり、各ドメインで1枚の画像しか存在しない場合でも適用可能である。また本手法では1方向のみのドメイン変換を対象としており、余分なGeneratorとDiscriminatorを除外することで計算コストを抑えている。

Generatorは大きく2つの要素で構成されており、入力画像から潜在変数を抽出するEncoderと対応するTargetの外見に変換するDecoderである。

まずはCycleGANと同様に生成された画像に対して、敵対的損失関数を適用する。

次に入力と出力間の相互情報量を最大化させるために、InfoNCE損失を採用している。