Toward Accurate and Realistic Virtual Try-on Through Shape Matching and Multiple Warps

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/2003.10817
公開日時：2020/03/22
被引用数（記事作成時点）：0 件
実装コード：なし
Publication :

1. どんなもの？

「試着が容易な服画像と人物画像の画像ペアを Shape Matching Net での埋め込み空間から選択」、「GMM を複数の変形服間での Cascade Loss で学習」、「TOMに複数の変形服の concat を入力して試着画像を生成」という３つの工夫で、試着画像の品質向上を実現した２次元画像ベースの仮想試着モデル。

2. 先行研究と比べてどこがすごいの？

一般的に仮想試着モデルによる試着では、試着が困難な人物画像と服画像のペア（例えば、ドレスを着た人物画像からセーターへの試着など）と試着が容易な画像ペア（例えば、半袖Tシャツを着ている人物から別の半袖Tシャツへの試着など）が存在する。本手法では、服画像と人物画像ペアの埋め込みを行い、その埋め込み空間内で近い距離にある画像ペア（＝試着が容易な画像ペア）を選択することで、試着品質が高くなるような服画像と人物画像のペアを抽出し、試着品質を向上させている。
又、従来の GMM において複数の変形服を生成し、それら複数の変形服間での Cascade Loss により学習を行うことで服変形の品質向上を実現している。
更に、従来の TOM に、複数の変形服の concat を入力することで、試着画像の品質向上を実現している。

3. 技術や手法の"キモ"はどこにある？

Shape Matching Net の概要
一般的に仮想試着モデルによる試着は、上図のように、試着が困難な人物画像と服画像のペア（上図のRANDOM）と試着が容易な画像ペア（上図のCHOSEN）が存在する。 Shape Matching Net は、上図の CHOSEN のような試着が容易な画像ペアを学習可能なネットワークで選定することで、試着画像の品質を向上させることを目的としている。 ※ この Shape Matching Net による画像ペアの選定は、推論時のテスト用データを作成するのに使用している？或いは学習用データセットを作成するのに使っている？上図は、Shape Matching Net のアーキテクチャの全体像を示している。この Shape Matching Net での処理の流れは、大まかに以下のようになる。 1. 人物画像・服画像・別の服のペアを、Garment Visual Encoder を用いて埋め込み空間に埋め込む。この埋め込みは、埋め込み空間内で近い距離にある画像ペア（＝試着が容易な画像ペア）になるように埋め込みが行われる。 2. 埋め込んだ埋め込みベクトルから ShapeEncoder と AutoEncoder を用いて、人物が着ている服の服の輪郭マスク画像が再構成される。 3. 埋め込み空間を検索して、試着が容易な画像ペアとして該当する k 個の服画像を選択する。
Shape Matching Net の詳細
上図は、Shape Matching Net (SMN) アーキテクチャの詳細を示した図である。 Shape Matching Net (SMN) には、人物画像・その人物が着ている服画像・別の服画像の３つのペアが入力され、服画像の輪郭マスク画像 [contour mask] の潜在変数を生成することを学習する。最初のネットワークである Garment Visual Encoder では、人物画像・その人物が着ている服画像・別の服画像の３つのペアの埋め込み空間への埋め込みが行われる。この Garment Visual Encoder は事前学習されており、入力された画像ペアがどの衣装カテゴリ t に属するのかの解析が行われ、適切なカテゴリへの埋め込みが行われる。またこの Garment Visual Encoder では、後段のネットワークの end2end 効果により？、衣装カテゴリ t それぞれに対して、人物が着ている服の埋め込みベクトルと近く、別の服の埋め込みベクトルとは距離が遠くなるような人物画像の埋め込みベクトルを生成するように学習される。この生成された埋め込みベクトルは、後段の Shape Encoder へ入力され、さらなる埋め込みが行われ、その後の AutoEncoder の Decoder 側から人物が着ている服の服の輪郭マスク画像が再構成される。ネットワークの損失関数は、以下のように定義される。最終的な目的である試着が容易な画像ペアの選定は、下図の赤枠部分のように、埋め込み空間内で k 個の最近傍探索を行うことによって選定される。（論文中にはこの処理部分の詳細な記述なし）
Multi-warp Try-on Net
CP-VTON の GMM と TOM に該当するネットワーク。但し、 GMM に該当するネットワークでは、１つの変形服ではなく、k 個の変形服（のためのパラメーターθ）を出力した上で Cascade Loss によって学習し、TOM に該当するネットワークではそれら複数の変形服を concat して入力し、試着画像を生成する点が異なる。また CP-VTON のように GMM と TOM が別々に学習されるのではなく、WUTON のように end2end で学習される。具体的には、GMM ネットワークはまず、人物が着ている服とその服輪郭マスク画像を入力とし、アフィン変換のための k 個のパラメーターを出力する。その後そのパラメーターを服画像に適用して、k 個の変形服を生成する。この GMM ネットワークの損失関数は、以下の式ような複数の変形服に対する Cascade Loss として定義される。この Cascade Loss では、１番目の変形服でズレが発生した場合の損失関数値が、後の番目の変形服でズレが発生した場合の損失関数値よりも大きくなるように設計されている。これにより、学習中の損失関数値の不安定な振動を防止することが出来る。次に、TOM ネットワークでは、複数の変形服と試着対象部分をマスクした人物画像の concat を入力として、試着画像を生成する。 ※ 複数の変形服を concat して入力することで、試着画像の品質を向上させている。 TOM ネットワークのアーキテクチャには、CP-VTON と同じく U-Net の構造が採用されている。ネットワークの損失関数は、論文「Image Inpainting for Irregular Holes Using Partial Convolutions」で提案されている adopt the inpainting losses を採用している。ネットワーク全体の損失関数は、GMM と TOM の損失関数の和として定義され、ネットワークは end2end に学習される。

4. どうやって有効だと検証した？

既存の仮想試着モデルとの FID_∞ スコアでの比較から、本手法では一貫してスコアが改善していることを定量的に検証している。（blended は U-Net ではなく直接的な貼付けを用いた場合の設定）
既存の仮想試着モデルの試着画像（３段目）と比較して、本手法の試着画像（２段目）の試着品質のほうが優れていることを定量的に検証している。（※ 服境界での品質が向上しているのは、本手法では、WUTONのように人物画像における服部分のみを試着合成するため。）
変形服の枚数を１枚（k=1）→ ２枚（k=2）にすることでの品質改善すること（特に服のボタンやタグ位置など）を、定性的に検証している。

5. 議論はあるか？

Shape Matching Net による試着が容易な画像ペアの選定は、推論時のテスト用データを作成するのに使用しているのか、或いは学習用データセットを作成するのに使っているのかよくわからかった。後者の場合このプロセスは、学習用データセットのクレンジング処理で代用可能なので、あまりメリットが感じられない。前者の場合は、選定すれば品質向上するのは同然の結果であまり意味がないと感じる。
或いは、Shape Matching Net により選定された試着が容易な画像ペアは、元のデータセットに含まれている画像とは異なる生成された画像になっていて、この生成画像では試着が容易な画像ペアになるということ？
既存の仮想試着モデルとの定性的比較から、服境界の品質向上を主張しているが、これは WUTON のように試着合成対象を限定することで得られた品質向上であり、本手法で提案されている複数の変形服による効果とは一概にいえないのではないか？
GMM で採用されている複数変形服間での Cascade Loss を部分的に採用するだけでも服変形画像の品質向上が見込める？
複数の変形服を concat して TOM ネットワークに入力し、試着品質を向上させるは、他の GMM モジュールにも部分的に適用できそう？
TOM で採用されている adopt the inpainting losses を、部分的に採用するだけでも試着画像の品質向上が見込める？

6. 次に読むべき論文はあるか？

Image Inpainting for Irregular Holes Using Partial Convolutions

Yagami360 / machine-learning-papers-survey

Toward Accurate and Realistic Virtual Try-on Through Shape Matching and Multiple Warps #57

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献