INFO

author

Bruno Korbar, Du Tran, Lorenzo Torresani

affiliation

Facebook AI

conference or year

ICCV2019

link

pdf

概要

Screenshot from 2020-01-21 09-00-05

これまで action recognition の分野では，推論時にビデオをクリップ(例えば16フレームを1クリップとして)に分割し，すべてのクリップをモデルに入力，その出力結果の平均値をビデオに対する最終的な出力結果としていた．しかしながら，クリップの中には無駄な情報を含むものもあり，すべてのクリップの結果を平均するのは得策ではないと言える．そこで本研究では，Action Recognitionにおいて，出力結果に大きく寄与するクリップを選択する Salient Clip-Sampler(SCSampler) を提案している．

SCSampler として，visual-based sampler と audio-based sampler の２つを提案している．これらの sampler は，軽量化行動モデル(action classifier)，もしくは saliency ranker として学習される．

検証

Screenshot from 2020-01-21 09-16-27

Comment

clip選択に関しての研究はあまり見かけないので興味深かった
clip の切れ目をどこにするかも重要になってくると思うので，そこを研究テーマにできれば面白そう

date

Jan. 21, 2020

yiskw713 / paper_summary

SCSampler: Sampling Salient Clips from Video for Efficient Action Recognition #115