yiskw713 / paper_summary

Write summaries of papers I've read in Japanese
10 stars 1 forks source link

Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-supervised Object and Action Localization #26

Open yiskw713 opened 5 years ago

yiskw713 commented 5 years ago

INFO

author

Krishna Kumar Singh, Yong Jae Lee

affiliation

University of California, Davis

conference

ICCV 2017

link

pdf 実装

概要

screen shot 2019-02-01 at 9 40 35

入力画像の一部をランダムに隠すことで,イメージレベルのラベルのみの弱教師あり学習で object localization の精度を向上させた.また,行動認識のタスクにも取り組んでいる.既存研究の CAM(#24)では,discriminative な領域しか学習出来なかったが,本研究ではそれだけでなく関連する領域すべてを学習することが可能になった.上図は既存研究との比較.

提案手法

screen shot 2019-02-01 at 9 40 58

サイズが H × W × 3の入力画像を,固定サイズ S×Sのパッチでグリットに分割する.これらのグリットを確率 p でランダムに隠し,ネットワークに分類問題を学習させる.パッチの隠し方はエポックごとに変えていて,これによって物体に関連する複数の領域を学習することができる.ネットワークの基本構造は,CAM(#24)で用いられているものと同じ.パッチで隠された部分はデータセットの画像全部のピクセル値の平均を用いて学習を行っている.

検証

screen shot 2019-02-01 at 9 54 38

object localization においてパッチサイズを比較した時の精度のの比較.

screen shot 2019-02-01 at 9 54 48

既存手法との比較.Backprop(#25)やCAM(#24)よりも精度が高いことが確認できる.

screen shot 2019-02-01 at 9 55 07

定量的結果の図.discriminative な領域以外も検出できている.

screen shot 2019-02-01 at 9 56 26

パッチを隠す確率で比較した表.

comment

パッチサイズ32が最も高い精度だったのに,他の実験ではなんでパッチサイズ56を用いている?

date

Jan. 31, 2018