Open shimopino opened 4 years ago
[arXiv:2003.11038] Deformable Style Transfer
Sunnie S. Y. Kim, Nicholas Kolkin, Jason Salavon, Gregory Shakhnarovich
2020-03-24
既存のスタイル変換モデルはテクスチャ情報の変換に注力している。本研究では、形状を変換させるモデルを提案した。このモデルは特定のドメインに依存することなく、スタイルやcontentの学習ペアを必要としない。
既存のスタイル変換で定義されているスタイルとは、色やテクスチャ情報に偏っている。しかし、芸術家のスタイルでは、描く物体のテクスチャだけではなく、物体の形状や幾何学的な模様も重要な情報である。
既存のモデルは画像の局所的な特徴量を抽出しており、画像全体にまたがる物体の形状や幾何学的な特徴を捉えることができていない。
本研究では、形状などの特徴もスタイルとして捉えることで、形状のスタイル変換も可能なモデルを提案している。
幾何学的なスタイル変換を導入する方法の1つは、Content画像とStyle画像の間の空間的な関係性を抽出することで、画像間の歪みを計算し、Content画像をStyle画像に合わせて歪曲させる方法である。
Content画像とStyle画像が同一のドメインに所属していると仮定すると、歪みとはこの画像間の空間的な関係性を捉えることであり、この関係性からContent画像の制御点をどのように変化させればいいのかを計算することで、Thin-Plate Spline補間を使用してStyle画像の形状に歪曲させることができる。
制御点を設定する方法としては、使用するドメインに対応するKeypoint Detectorを使用して、各画像のペアの対応する制御点を抽出して学習データに使用することが考えられる。
しかし、本研究ではこうしたドメイン特有のモデルを使用することなく、ドメインに関係なく対応する制御点を抽出することが可能なNBBを導入している。
NBBでは、事前学習済みのCNNモデルの各層から特徴量を抽出して、ドメイン特有の抽象的な意味を抽出できる深い層から、空間的に不変なエッジや色などの低レベルな情報を抽出できる低い層の順に、対応する制御点を計算する。
NBBではこれらの抽出した特徴量に対して最近傍法を適用することで、k個の空間的なクラスタを計算し、その中心点をk個の制御点として出力する
しかしNBBをそのまま使用して得られた制御点にはノイズが含まれ、そのまま使用すると精度が悪化してしまうため、以下の改善を導入している。
https://github.com/sunniesuhyoung/DST
論文へのリンク
[arXiv:2003.11038] Deformable Style Transfer
著者・所属機関
Sunnie S. Y. Kim, Nicholas Kolkin, Jason Salavon, Gregory Shakhnarovich
投稿日時(YYYY-MM-DD)
2020-03-24
1. どんなもの?
既存のスタイル変換モデルはテクスチャ情報の変換に注力している。本研究では、形状を変換させるモデルを提案した。このモデルは特定のドメインに依存することなく、スタイルやcontentの学習ペアを必要としない。
2. 先行研究と比べてどこがすごいの?
既存のスタイル変換で定義されているスタイルとは、色やテクスチャ情報に偏っている。しかし、芸術家のスタイルでは、描く物体のテクスチャだけではなく、物体の形状や幾何学的な模様も重要な情報である。
既存のモデルは画像の局所的な特徴量を抽出しており、画像全体にまたがる物体の形状や幾何学的な特徴を捉えることができていない。
本研究では、形状などの特徴もスタイルとして捉えることで、形状のスタイル変換も可能なモデルを提案している。
3. 技術や手法の"キモ"はどこにある?
幾何学的なスタイル変換を導入する方法の1つは、Content画像とStyle画像の間の空間的な関係性を抽出することで、画像間の歪みを計算し、Content画像をStyle画像に合わせて歪曲させる方法である。
Content画像とStyle画像が同一のドメインに所属していると仮定すると、歪みとはこの画像間の空間的な関係性を捉えることであり、この関係性からContent画像の制御点をどのように変化させればいいのかを計算することで、Thin-Plate Spline補間を使用してStyle画像の形状に歪曲させることができる。
3.1 Finding and Cleaning Keypoints
制御点を設定する方法としては、使用するドメインに対応するKeypoint Detectorを使用して、各画像のペアの対応する制御点を抽出して学習データに使用することが考えられる。
しかし、本研究ではこうしたドメイン特有のモデルを使用することなく、ドメインに関係なく対応する制御点を抽出することが可能なNBBを導入している。
NBBでは、事前学習済みのCNNモデルの各層から特徴量を抽出して、ドメイン特有の抽象的な意味を抽出できる深い層から、空間的に不変なエッジや色などの低レベルな情報を抽出できる低い層の順に、対応する制御点を計算する。
NBBではこれらの抽出した特徴量に対して最近傍法を適用することで、k個の空間的なクラスタを計算し、その中心点をk個の制御点として出力する
しかしNBBをそのまま使用して得られた制御点にはノイズが含まれ、そのまま使用すると精度が悪化してしまうため、以下の改善を導入している。
3.2 Differentiable Image Warping
4. どうやって有効だと検証した?
5. 議論はあるか?
6. 次に読むべき論文はあるか?
論文情報・リンク