Deformable Style Transfer

論文へのリンク

[arXiv:2003.11038] Deformable Style Transfer

著者・所属機関

Sunnie S. Y. Kim, Nicholas Kolkin, Jason Salavon, Gregory Shakhnarovich

Toyota Technological Institute at Chicago
University of Chicago

投稿日時（YYYY-MM-DD）

2020-03-24

1. どんなもの？

既存のスタイル変換モデルはテクスチャ情報の変換に注力している。本研究では、形状を変換させるモデルを提案した。このモデルは特定のドメインに依存することなく、スタイルやcontentの学習ペアを必要としない。

2. 先行研究と比べてどこがすごいの？

既存のスタイル変換で定義されているスタイルとは、色やテクスチャ情報に偏っている。しかし、芸術家のスタイルでは、描く物体のテクスチャだけではなく、物体の形状や幾何学的な模様も重要な情報である。

既存のモデルは画像の局所的な特徴量を抽出しており、画像全体にまたがる物体の形状や幾何学的な特徴を捉えることができていない。

本研究では、形状などの特徴もスタイルとして捉えることで、形状のスタイル変換も可能なモデルを提案している。

3. 技術や手法の"キモ"はどこにある？

幾何学的なスタイル変換を導入する方法の1つは、Content画像とStyle画像の間の空間的な関係性を抽出することで、画像間の歪みを計算し、Content画像をStyle画像に合わせて歪曲させる方法である。

Content画像とStyle画像が同一のドメインに所属していると仮定すると、歪みとはこの画像間の空間的な関係性を捉えることであり、この関係性からContent画像の制御点をどのように変化させればいいのかを計算することで、Thin-Plate Spline補間を使用してStyle画像の形状に歪曲させることができる。

3.1 Finding and Cleaning Keypoints

制御点を設定する方法としては、使用するドメインに対応するKeypoint Detectorを使用して、各画像のペアの対応する制御点を抽出して学習データに使用することが考えられる。

しかし、本研究ではこうしたドメイン特有のモデルを使用することなく、ドメインに関係なく対応する制御点を抽出することが可能なNBBを導入している。

NBBでは、事前学習済みのCNNモデルの各層から特徴量を抽出して、ドメイン特有の抽象的な意味を抽出できる深い層から、空間的に不変なエッジや色などの低レベルな情報を抽出できる低い層の順に、対応する制御点を計算する。

NBBではこれらの抽出した特徴量に対して最近傍法を適用することで、k個の空間的なクラスタを計算し、その中心点をk個の制御点として出力する

しかしNBBをそのまま使用して得られた制御点にはノイズが含まれ、そのまま使用すると精度が悪化してしまうため、以下の改善を導入している。

最後のクラスタリングを実行せず、ピクセルレベルの対応点をそのまま出力する
貪欲法を使用して、活性化値が高い順、かつ10ピクセル以上離れた点を抽出する
80個の制御点のペアを選択し、活性化値が1より低いものを消去する

shimopino / papers-challenge