yiskw713 / paper_summary

Write summaries of papers I've read in Japanese
10 stars 1 forks source link

RESOUND: Towards Action Recognition without Representation Bias #131

Open yiskw713 opened 4 years ago

yiskw713 commented 4 years ago

INFO

author

Yingwei Li et al.

affiliation

UC San Diego

conference or year

ECCV 2018

link

pdf

概要

表現バイアスの概念を定式化し,その測定方法について理論的な根拠を示し, 新しいデータセット収集手順であるRESOUNDを導入した論文.

導入

動画認識における一つの問題として,動画の各クラスが異なる時間感覚で識別されることがあげられる. これにより,時系列的識別のための表現の階層化が起きている. この階層の最下層に位置するのが,static な表現である.静的な手がかり(object など)が class-discriminative である場合,static な表現で十分である(例: 楽器がある →楽器を演奏している). 次のレベルの階層に位置するものとして,optical flow やフレームのペアなどから得られる短期的な動作表現である.この表現は,staticな手がかりで同一であるが,短期的な動きのパターンが異なる場合に有効である(例: 歩く or 走る など?). 最も最上位に位置するのが,ビデオダイナミクスの表現である.staticな表現と短期的な動作表現が同一だが,これらの要素の時間的配置が異なる場合に,この表現が必要となる.(例: 三段跳び or 走り幅跳び)

より高度な時間的推論を行うには,上位レベルの表現が必要不可欠であるが, 行動認識における各階層の相対的な重要度をどのように評価すれば良いのかはあまりはっきりとしていない.

また既存のデータセットの多くで,static な表現がそれなりに良い性能を達成している. これはデータセットが少なくとも以下の三種類のstatic な bias を示しているからである. i) オブジェクトのバイアス (例: ActivityNet における「ピアノを引く」というクラスはピアノを描写した唯一のクラス) ii) シーンのバイアス (例: バスケをしているか,サッカーをしているかは,コートで分類できうる) iii) 人物のバイアス (例: 「髪をかきあげる」というクラスでは人がアップになっていたり,「軍隊の行進」では軍服をきた人が写っている)

注意すべき点としては,バイアス自体は本質的に悪いことは何もない,ということである. 問題となる点は,データセットを構築する際に注意を払わなければ,これらのバイアスは行動認識システムの評価を損なう可能性があるという点だ. また,最近の深層学習の手法は偏ったデータ収集によるバイアスを識別し,オーバーフィットすることができるため,バイアスは明確である必要がないという事実から問題は複雑になっている. さらに,バイアスは累積的なもので,下の層のバイアスを取り除かない限り,上の層の表現の重要性を調査することはできない.

本研究ではこのようなバイアスをかけずにデータセットを構築することが可能かどうかを調査する. そもそもバイアスは,学習アルゴリズムが統計的推定器であり,少ないデータから学習では推定きの分散が大きく汎化ができないために起こる. 近年ImageNetなどの大規模データセットにより,データセットバイアスを劇的に減少させることができたが, 単に大規模なデータセットを収集しただけでは,表現のバイアスを排除することはできない.

データセットバイアスがアルゴリズムの特性(大規模なデータセットによって改善される)のに対し, 表現のバイアスはデータセットの特性であると言える.(社会学者がデータを収集する際に,年齢,性別,家族歴,富などの要因のバイアスを制御するのと同じように,データを収集する際にのみバイアスを制御できる) 本研究では,この概念をよくキャリブレーションされたデータセットという考えで定式化する. このデータセットは目の前のビジョンタスクのためのground truthの表現を好む,すなわち,他の表現に大きなバイアスを持たないものである. そして,データセットがよく校正されている場合にのみ,sotaな表現がground-truthの表現に収束することを示す. これにより,データセットの表現のバイアスの新しい測定方法が考案され,提案される RepreSentatiOn UNbiased Datasest (RESOUND) の指針となる.

この論文には4つcontributionが含まれる. i) 表現バイアスの概念を定式し,その測定方法について理論的なな根拠を示す ii) 新しいデータセット収集手順であるRESOUNDを導入し,1) vision task における制御方法の確立, 2) 表現バイアスを客観的に定量化する iii) 従来のデータセットのいくつかのバイアスを大幅に減少させたDriving48 という新たなデータセットを導入することで,RESOUNDの有用性を示す iv) RESOUNDがバイアスを減らすためのデータセットのサンプリングにも用いられることを示す

提案手法

検証

新規性

議論,展望

Comment

date