Yagami360 / machine-learning-papers-survey

機械学習関連の論文Survey用レポジトリ
135 stars 6 forks source link

Graphonomy: Universal Human Parsing via Graph Transfer Learning #8

Open Yagami360 opened 5 years ago

Yagami360 commented 5 years ago

0. 論文情報・リンク

1. どんなもの?

2. 先行研究と比べてどこがすごいの?

3. 技術や手法の"キモ"はどこにある?

以前の人物パースモデル [human parsing model] では、特定のドメインに過剰適合して過学習してしまう傾向があり、転移学習の用途で不十分であった。この問題を解決するためには、下図のようなグラフ構造で表現された人物パースラベル構造において、例えば赤丸で示したように、{頭} ↔ {帽子、髪、顔}のような異なるグラフ構造間におけるラベル(ここでは、{頭}と{帽子、髪、顔})を上位レベル(ここでは{頭})で統合することによって、多くの種類の人物パースラベル構造に対応できるような、汎用的な人物パースモデル [universal human parsing model] を構築すればよい。

image

このような汎用的な人物パースモデルを構築にあたっては、複数データ間での複数ドメイン間におけるラベルの不一致問題を回避するために、適切な転移学習を行えるようにモデルを構築することが重要となる。

Graphonomy は、このような転移学習問題とラベルの不一致問題を解決出来るような汎用的な人物パースモデルを実現するために、まず「 Intra-Graph Reasoning で、各データセット内での入力画像の特徴量とグラフ構造関係を学習する。」、次に「 Inter-Graph Transfer で、異なるデータセット間のラベルの包含関係(例えば、{頭}↔{帽子、髪、顔})を学習する。」という2段階のプロセスを組み合わせた GCN [graph convolutional network](グラフ畳み込み)ベースの汎用的人物パースモデルになっている。

これにより、データセットに応じて人物パースモデルを構築し直さずとも、Graphonomy という1つの汎用的な人物パース画像モデルの枠組みだけで、互いにラベルの包含関係を持つが構造の異なる様々なデータセットに対する人物パース画像を生成できる可能性が高まるようになる。

Graphonomy のアーキテクチャ

4. どうやって有効だと検証した?

いくつかのデータセット(Pascal-Person-Part dataset、ATR dataset、Crowd Instance-Level Human Parsing (CIHP) dataset)に対して、従来手法よりも本手法のセグメンテーション結果が、定性的にも定量的にも優れていることを実験的に検証している。

5. 議論はあるか?

6. 次に読むべき論文はあるか?