INFO

author

Jinwoo Choi et al.

affiliation

Virginia Tech

conference or year

NeurIPS 2019

link

pdf pytorch実装

概要

Screen Shot 2020-04-13 at 10 06 25 行動認識のタスクにおいて発生する背景バイアス(背景から行動を予測してしまうこと)を軽減するような学習方法を提案した論文．具体的には3つのロス関数を組み合わせて学習を行っている i) 通常通り動画中の複数フレームからなるクリップに対して，特徴抽出を行い，目的の行動ラベルの確率を最大化させるための cross entropy loss ii) クリップから得られた特徴量に対して，Places365で学習したモデルから得られた soft lable を pseudo lableとしてシーン分類を行わせ，そのpsuedo label の予測できないようにするためにGradient Reversal Layer を通して，学習を行わせる scene adversarial loss. これによりシーンに依存しない特徴量を獲得できるらしい iii) 人間にマスクをつけた動画に対しては行動認識を行えないようにする human mask confusion loss.

検証

Screen Shot 2020-04-13 at 10 27 15 他手法との比較

Screen Shot 2020-04-13 at 10 26 59 ロス関数のablation study

Comment

評価が小規模データセットに留まっているのが気になる
human mask confusion loss において gradient reversal layer を用いないのはなぜ？
人間以外をマスクにかけた画像に対して，学習を行っていないのはなぜ？

date

Apr. 13th, 2020

yiskw713 / paper_summary

Why Can’t I Dance in the Mall? Learning to Mitigate Scene Bias in Action Recognition #130