Deep Fashion3D: A Dataset and Benchmark for 3D Garment Reconstruction from Single Images

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/2003.12753
公開日時：2020/03/28
組織 :
被引用数（記事作成時点）：1 件
実装コード：なし
プロジェクトページ : https://kv2000.github.io/2020/03/25/deepFashion3DRevisited/
Publication :

1. どんなもの？

DeepFashoin3D dataset という、様々な衣装カテゴリ（１０種類）や新しいアノテーションデータが付与された服メッシュデータセットを提案。更にこの DeepFashoin3D dataset を最大限活用して、画像から服メッシュを再構成するためのベースラインネットワークを提案し、３D再構成した服メッシュの品質を向上させている。

2. 先行研究と比べてどこがすごいの？

画像から人体メッシュを３D再構築する image-to-3D 手法は、SMPL で制御パラメーターから多種多様な裸体人体メッシュを生成出来るようになったことにより、学習用データ不足の問題から開放された。一方で、画像から服メッシュを生成する image-to-3D 手法は、SMPL が裸体人体メッシュしか生成できないために、依然として学習用データが不足している問題が存在する。既存の image-to-3D 手法である Multi-Garment Net では、SMPL のように制御パラメーターからの服メッシュの生成を実現しているが、この服メッシュは５つの服カテゴリしか生成できないと問題が存在する。本論文では、このような学習用データセット不足の問題を解決するために、DeepFashoin3D dataset という、様々な衣装カテゴリ（１０種類）のより多くのメッシュデータを含む服メッシュのデータセットを提供している。このデータセットには、新しいタイプのアノテーションデータが付与されており、３D再構築の品質向上のために役に立つ。
また、この DeepFashoin3D dataset を最大限活用して、１枚の服画像から服メッシュを再構成するためのベースラインネットワークを提案し、３D再構成した服メッシュの品質を向上させている。

3. 技術や手法の"キモ"はどこにある？

Deep Fashion 3D dataset
本論文では、衣装カテゴリ（１０種類）の合計2078 個メッシュを含む服メッシュデータセットを提供している。このデータセットは、上図のように既存服メッシュデータセットと比較して、衣装カテゴリ・メッシュの数ともに、最も多いデータセットになっており、画像から服メッシュを生成する image-to-3D 手法における学習用データ不足の問題を解決するためのデータセットになっている。各衣装カテゴリ（１０種類）の具体的な内容は、上図のようになる。このデータセットには、更に、上図のような新しいタイプのアノテーションデータ（feature line annotations）が付与されている。これは顔ランドマークのように、服メッシュの特徴的な属性、例えば｛開いた境界線・ネックライン・袖口・ウエストなど｝を示すアノテーションデータ（各属性の有無データ？あるいは実際の３D空間上での座標データ？）で、服メッシュの３D再構成の品質向上に役立てることを想定している。また、各服メッシュと最も近い人体形状での SMPL の制御パラメーターの値も付与されている。人体メッシュと服メッシュには結合した関係があるので、この SMPL 制御パラメーターは、服メッシュの全体的な形状や姿勢を推論するのみに役立てることを想定している。
アーキテクチャの全体像
上式は、本手法が提供している image-to-3D のアーキテクチャ全体像を示した図である。このネットワークでは、Deep Fashion 3D dataset を活用し、１枚の服画像から服メッシュを再構成することが可能なネットワークになっている。 ※ 既存の image-to-3D モデルは、通常８枚の人物画像からの３D再構成になっているが、本手法では１枚の服画像のみから３D再構成を行える。この点も既存のモデルより優れている。このネットワークでの処理は、以下のような流れになる 1. 入力服画像 I の衣装カテゴリに合わせた人体服部分テンプレートメッシュ M_t を生成する 2. feature line を変形ハンドルとした服メッシュ変形 i. SMPL の人物姿勢パラメーターをテンプレートメッシュに適用し、人物姿勢に対応した人体服部分メッシュ M_p を生成する。 ii. 生成した服部分メッシュ M_p に含まれる feature line アノテーションデータをグラフ構造として扱い、グラフ畳み込み（GCN）の構造で捉える。 iii. feature line を変形ハンドルとして、handle-based deformation を行い、服メッシュ M_l を生成する。 3. Implicit Reconstruction による服メッシュ表面の Refinement i. OccNet を利用して入力服画像 I から服メッシュ M_I を生成し、メッシュ表面での詳細形状を refinement する ii. OccNet からの refinement された服メッシュ M_I から、服表面の微小な変化を服メッシュ M_l に適用的に取り入れ、その一方で表面の外れ値やノイズを除去し、最終的な服メッシュ M を生成する。
テンプレートメッシュの生成
- Adaptable template mesh この処理では、入力服画像 I の異なる衣装の形状に対応可能なテンプレートメッシュ（Adaptable template mesh）を生成することを目的としている。この Adaptable template mesh は、SMPL から生成した裸体人物メッシュの｛頭・手・足｝の領域を切り取ったメッシュになっており、更に、｛胴体・腰・上半身・下半身・手・足｝の６つ領域にセグメンテーションされたメッシュになっている。ネットワークの学習中は、この Adaptable template mesh 全体がネットワークに入力されるが、推論時は、推定された入力服画像の衣装カテゴリに応じて、この Adaptable template mesh のセグメンテーション領域が変化する。例えば、半袖服の場合は、手足領域にある頂点の２値活性化マスクが非活性化される。 - cf : Multi-Garment Network でのメッシュのセグメンテーション - cloth classification 入力服画像の服カテゴリの分類は、事前学習済み VGG ネットワークを用いて行われる。
feature line を変形ハンドルとした服メッシュ変形
衣装メッシュの輪郭の品質を高めるためには、ネックラインや袖口などのアノテーションデータを用いることが有益である。Fashion3D dataset には、前述のように、このようなアノテーションデータ（feature line annotations）が付与されている。本手法では、この feature line を変形ハンドル（＝変形の基準点のようなもの？）として扱い、服メッシュ M_t を変形させる。但し、３D空間で feature line を直接回帰すると自由度が大きすぎてうまく推論できないので、以下のような処理を行っている 1. まず服メッシュのポーズを推定する。この服メッシュのポーズというのは、pose estimation network で推定された SMPL の人物姿勢パラメーターθで表現される ※ pose estimation network の詳細アーキテクチャは、後述参照 2. 推定したポーズに基づき、服メッシュ M_t を変形して新しい服メッシュ（＝ポーズ反映させた服メッシュ） M_p を得る。この新しい服メッシュ M_p は、feature line の初期値 {l_i^p } を提供する？ → feature line の初期値というのがどのようなものなのか理解できなかった。 3. feature line の初期値 {l_i^p } は、グラフ構造として扱うことが出来るので、グラフ畳み込みでこのグラフ構造を取り込む。 4. VGGネットワーク（VGG16-b）を用いて、入力服画像から特徴量を抽出し、Pixel2Mesh と同様の学習戦略を用いて、feature line の変形を推定し？、推定した feature line {l_i^o } を得る → Pixel2Mesh と同様の学習戦略を用いた feature line の変形を推定処理が理解できなかった。 5. feature line を変形ハンドルとした handle-based deformation を行う。これは、feature line の初期値 {l_i^p } が推定した feature line {l_i^o } にマッチング（＝位置合わせ）するように、メッシュ M_p をメッシュ M_l に変形する処理である。 ※ feature line を変形ハンドルとして変形を行うので、メッシュ自体で変形を行うより変形品質が良くなるのだと思われる。この feature line のマッチング処理は、Laplcacian deformation で行う。 ※ Laplcacian deformation : 論文「Laplacian surface editing」 - Pose Estimation ネットワークの詳細 SMPL の人物姿勢パラメーターθを服メッシュのポーズとして利用出来るようにするために、SMPL の制御パラメーターに含まれる｛グローバル回転パラメーター・足首、手首、首などの局所回転パラメータ｝などの衣服の変形とは無関係なパラメータをゼロに設定する。更に、入力服画像を制御パラメーターに部分的に反映できるようにするために、VGG ネットワークで服画像の特徴量を抽出し、全結合層でパラメーターに反映させる。
Implicit Reconstruction による服メッシュ表面の Refinement
handle-based deformation で変形した服メッシュ M_l に対して、メッシュ表面の詳細形状を refinement する。そのために、OccNet での implicit representation (implicit surface based methods) を利用する。 ※ OccNet : 論文「Occupancy networks: Learning 3d reconstruction in function space」但し、OccNet をそのまま利用すると、メッシュ表面の詳細形状を refinement できる一方で、メッシュが開いている部分（首元、袖など）も閉じた閉曲面のメッシュを生成してしまう（図５の (i)）ので、OccNet の出力に対して、服メッシュ M_l を適応的に non-rigid registration する処理を行う。これら処理の詳細は、以下のようになる。 1. Learning implicit surface OccNet のアーキテクチャをそのまま利用して、服メッシュの implicit surface を学習する。具体的には、まず入力画像を ResNet-18 を用いて、潜在空間に encoder する。次に服メッシュの各頂点に対して、その頂点座標と enocoder された入力画像の潜在変数から、MLP 層でその頂点がメッシュ表面の内側にあるか外側にあるかを分類する。 ※ これらの処理の詳細を理解するには、論文「Occupancy networks: Learning 3d reconstruction in function space」を読む必要がありそう。 2. Detail transfer with adaptive registration OccNet で生成した服メッシュは、閉曲面でのメッシュになっており、更にメッシュ表面で外れ値やノイズが発生する傾向がある。そのため本手法では、従来の non-rigid ICP algorithm に２つの制約を課すことで、正しい詳細成分のみ服メッシュ M_l に段階的に適用していく処理を行っている。 ※ non-rigid ICP algorithm がどのようなものなのか理解できていない。
ネットワークの損失関数本手法では、Cloth Classification, Pose Estimation, Feature Line Regression の３つのネットワークが存在するが、これらのネットワークはそれぞれ別の損失関数で個別に学習される（非end2end）
尚、Pose Estimation ネットワーク損失関数の計算で必要になる服メッシュの正解姿勢ポーズパラメーターは、本手法で再構成した服メッシュの点群に、SMPL モデルをフィッテングすることで取得する。具体的には、以下の手順で取得する。 i. アノテーションされた feature line に対して、その中心点をジョイント点（スキンメッシュアニメーションでのジョイント点のようなもの？）とする。 ii. トルソー領域でのジョイント点を使用して、メッシュの向きとスケールを一貫させるために、全ての点群を整形する。 iii. ジョイントと点群をフィッテングすることで、SMPL パラメーターを計算する → この部分の処理がよく分からなかった

4. どうやって有効だと検証した？

既存の服メッシュ生成モデルとの定性比較検証
既存の image-to-3D モデル（MGNなど）と比較して、品質の高い３D服メッシュが再構成できている。
ablation study での定性検証
GCN の構造では、メッシュ表面を荒く近似しているだけで、メッシュ形状の詳細を捉えることは出来ていない。一方で、Feature Line に基づく handle-based deformation は品質の高い服メッシュ変形を実現できている。

5. 議論はあるか？

データセットを公開予定とあるが、未だにデータセットが公開されていない模様
Feature Line に基づく handle-based deformation というのは、他の３Dメッシュ変形でも有用そう。FFD [Free-form deformation] によるメッシュ変形よりも良いかも？

6. 次に読むべき論文はあるか？

Occupancy networks: Learning 3d reconstruction in function space
Laplacian surface editing : Laplcacian deformation に関しての論文
non-rigid ICP algorithm に関しての論文 or 文献 (http://www.hao-li.com/teaching/geometricComputingSeminar/IntroductionToNonRigidRegistration.pdf など)

7. 参考文献

SMPL: A skinned multi-person linear model : https://github.com/Yagami360/MachineLearning-Papers_Survey/issues/86
Multi-Garment Net: Learning to Dress 3D People from Images : https://github.com/Yagami360/MachineLearning-Papers_Survey/issues/87

Yagami360 / machine-learning-papers-survey

Deep Fashion3D: A Dataset and Benchmark for 3D Garment Reconstruction from Single Images #89

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献