① 入力画像のグラフ構造への写像:
DeepLab v3+ でエンコードした入力画像特徴量 X∈R(H×W×C) に対して、上式に従って、無向グラフ G=(V,E) の各頂点 v∈V に写像する。
この際に、画像中の類似した特徴(頭、顔、髪など)は、同じ頂点に写像されるように、変換行列 W の重みを学習していく。
※ DeepLab v3+ でエンコードされた特徴量は、セマンティクスセグメンテーション画像の手前の中間層からの特徴量なので、画像中の類似した特徴(頭、顔、髪など)が区別されている。
② グラフ畳み込み(GCN)による入力画像の大域的特徴量の検出と伝搬:
構築されたグラフ構造 G を、GCN(グラフ畳み込み)で、別の縮約されたグラフ構造 G^e へ畳み込む。これにより、グラフ構造 G でのグラフ表現 Z から、別のグラフ構造 G^e での縮約されたグラフ表現 Z^e が得られる。入力画像とグラフの大域的な特徴量を伝搬させるために、このグラフ畳み込みを複数回(3回)実施する。
③ Re-projection :
グラフに埋め込まれた入力画像情報を、再度画像に戻す。内部のネットワーク構成としては、ResNet の残差構造(residual block & skip connection)を利用する。
Inter-Graph Transfer :
Inter-Graph Transfer を介して、別々のグラフ構造で定義された複数のデータセット間(PASCAL VOC ↔ CIHPなど)でのラベルの包含関係(例えば、{頭}↔{帽子、髪、顔})を学習するネットワーク。この転移&学習処理は、以下の式で定式化出来る。
Handcraft relation :
変換行列 W の各重み a_{ij} の値を、2つのラベル間の相関関係で手動でハードマージン値(0 or 1)した値で構成していく方式。
Learnable matrix.
変換行列 W の各重み a_{i,j} の値をランダムに初期化する方式。
Feature similarity
変換行列 W の各重み a{ij} を、以下の式で計算する方式。
4.Semantic similarity.
変換行列 W の各重み a{ij} を、以下の式で計算する方式。
4. どうやって有効だと検証した?
いくつかのデータセット(Pascal-Person-Part dataset、ATR dataset、Crowd Instance-Level Human Parsing (CIHP) dataset)に対して、従来手法よりも本手法のセグメンテーション結果が、定性的にも定量的にも優れていることを実験的に検証している。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
以前の人物パースモデル [human parsing model] では、特定のドメインに過剰適合して過学習してしまう傾向があり、転移学習の用途で不十分であった。この問題を解決するためには、下図のようなグラフ構造で表現された人物パースラベル構造において、例えば赤丸で示したように、{頭} ↔ {帽子、髪、顔}のような異なるグラフ構造間におけるラベル(ここでは、{頭}と{帽子、髪、顔})を上位レベル(ここでは{頭})で統合することによって、多くの種類の人物パースラベル構造に対応できるような、汎用的な人物パースモデル [universal human parsing model] を構築すればよい。
このような汎用的な人物パースモデルを構築にあたっては、複数データ間での複数ドメイン間におけるラベルの不一致問題を回避するために、適切な転移学習を行えるようにモデルを構築することが重要となる。
Graphonomy は、このような転移学習問題とラベルの不一致問題を解決出来るような汎用的な人物パースモデルを実現するために、まず「 Intra-Graph Reasoning で、各データセット内での入力画像の特徴量とグラフ構造関係を学習する。」、次に「 Inter-Graph Transfer で、異なるデータセット間のラベルの包含関係(例えば、{頭}↔{帽子、髪、顔})を学習する。」という2段階のプロセスを組み合わせた GCN [graph convolutional network](グラフ畳み込み)ベースの汎用的人物パースモデルになっている。
これにより、データセットに応じて人物パースモデルを構築し直さずとも、Graphonomy という1つの汎用的な人物パース画像モデルの枠組みだけで、互いにラベルの包含関係を持つが構造の異なる様々なデータセットに対する人物パース画像を生成できる可能性が高まるようになる。
Graphonomy のアーキテクチャ
入力画像の特徴抽出のためのネットワークは DeepLab v3+ を採用: 入力画像からの特徴抽出のためのモデルは、セマンティックセグメンテーションモデルである DeepLab v3+ を採用している。但し、最終層のセグメンテーション画像を出力する出力層は除外し、その手前の中間層からの特徴量を出力するようにする。
Inter-Graph Reasoning : Intra-Graph Reasoning では、上図のように、各々のデータセット(PASCAL VOC, CIHP, ATR など)に対して、まず入力画像の画像特徴量をグラフの各頂点に対応させ、次に構築したグラフをグラフ畳み込みで縮約し、最後に集約された情報を人物パース画像に再変換する。これら3つの処理の詳細は、以下のようになる。
① 入力画像のグラフ構造への写像: DeepLab v3+ でエンコードした入力画像特徴量 X∈R(H×W×C) に対して、上式に従って、無向グラフ G=(V,E) の各頂点 v∈V に写像する。 この際に、画像中の類似した特徴(頭、顔、髪など)は、同じ頂点に写像されるように、変換行列 W の重みを学習していく。 ※ DeepLab v3+ でエンコードされた特徴量は、セマンティクスセグメンテーション画像の手前の中間層からの特徴量なので、画像中の類似した特徴(頭、顔、髪など)が区別されている。
② グラフ畳み込み(GCN)による入力画像の大域的特徴量の検出と伝搬:
③ Re-projection : グラフに埋め込まれた入力画像情報を、再度画像に戻す。内部のネットワーク構成としては、ResNet の残差構造(residual block & skip connection)を利用する。
Inter-Graph Transfer : Inter-Graph Transfer を介して、別々のグラフ構造で定義された複数のデータセット間(PASCAL VOC ↔ CIHPなど)でのラベルの包含関係(例えば、{頭}↔{帽子、髪、顔})を学習するネットワーク。この転移&学習処理は、以下の式で定式化出来る。
4. どうやって有効だと検証した?
いくつかのデータセット(Pascal-Person-Part dataset、ATR dataset、Crowd Instance-Level Human Parsing (CIHP) dataset)に対して、従来手法よりも本手法のセグメンテーション結果が、定性的にも定量的にも優れていることを実験的に検証している。
生成画像の他の手法との定性的な比較結果: 上図は、PASCAL-Person-PartデータセットとCIHP データセットに対して、以前の他手法と Graphonomy が生成した人物パース画像を定性的に比較した図である。 全体的に、人物の外見や位置、服の刺繍が大きく変動しても、Graphonomy が最も優れて安定したパース画像を生成出来ていることが見てとれる。 (b), (e) : 服のロゴや特殊なファッションの影響で、Graphonomy 以外の他手法ではうまくセグメンテーション出来ていない。 (c), (d) : カラフルな背景の影響で、Graphonomy 以外の他手法ではうまくセグメンテーション出来ていない。 (g), (h) : 失敗ケース
単一のデータセットに対しての定量的な評価結果: 上表は、PASCAL-Person-Part データセットに対して、各手法が生成する人物パース画像における平均 IoU での比較結果を示している。 ベースラインとしている DeepLab v2 や以前の他手法に比べて、Graphonomy は優れた結果となっていることが見てとれる。
Ablation Studies での性能比較:
学習データ数の違いでのの性能比較(=転送学習の有効性):
5. 議論はあるか?
6. 次に読むべき論文はあるか?