issues
search
DwangoMediaVillage
/
paper_readings
Dwango Media Village内で行われている論文紹介の資料
58
stars
2
forks
source link
Pose-driven Deep Convolutional Model for Person Re-identification
#20
Open
kogaki
opened
7 years ago
kogaki
commented
7 years ago
画像に加えてポーズを入力することでReIDの性能を上げる.そのための複数コンポーネントからなるネットワークの提案.
論文本体・著者
https://arxiv.org/abs/1709.08325
Chi Su, Jianing Li, Shiliang Zhang, Junliang Xing, Wen Gao, Qi Tian
ICCV'17
解きたい問題
Person ReIDの性能を上げたい
新規性
ポーズ推定をReIDに組み込む
実装
4つのコンポーネントからなり,それらをまとめてEnd-to-Endに学習する
Global Stream
inceptionを基本として,前半部をpart streamと重み共有している
Part Stream
Feature Embedding: 画像からパーツ画像に変換する
後述
Feature Weighting: GlobalとPartの結合重みを学習する
例えばパーツ認識に失敗した時に,重みが下がることで,Global単体より悪くならないように機能している
ロス関数は人物識別の識別問題としてsoftmax cross entropyを用いる
Feature Embedding
(e) -> (f) のアフィン変換を学習している
学習ベースの正規化という感じ.Spatial Transformer Networksという先行手法の拡張.
実験・議論
単純な結合でも性能上がるけど,それぞれのコンポーネントも性能向上に寄与している
データセット
CUHK03: 1467人 14096画像
Market1501: 1501人 32368画像
VIPeR: 632人 632*2画像
読んだ中での不明点などの感想
アフィン変換の学習部分,学習率をほかの0.1%にしたと書いてあった.たしかにぜんぜん違うコンポーネント繋げる場合,そういう調整も必要か.厳しい
ポーズ推定自体を画像から行って,さらにEnd-to-endトレーニングを目指す時に,果たしてサブタスクのポーズ推定を入れることはどう解釈すればいいんだろう.カリキュラム学習の一種?
関連論文
J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.
ポーズ推定の部分はこれを使ってる
M. Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial transformer networks. In NIPS, 2015.
アフィン変換部分
画像に加えてポーズを入力することでReIDの性能を上げる.そのための複数コンポーネントからなるネットワークの提案.
論文本体・著者
解きたい問題
新規性
実装
Feature Embedding
実験・議論
読んだ中での不明点などの感想
関連論文