INFO

author

Ruohan Gao, Tae-Hyun Oh, Kristen Grauman, Lorenzo Torresani

affiliation

The University of Texas at Austin, Facebook AI Research

conference or year

arXiv:1912.04487, 2019

link

pdf project page

概要

Screenshot from 2020-01-21 10-22-12

行動認識において，トリミングされていない長い動画をクリップに分割し，すべてのクリップを用いて分類を行うのは，i)クリップ内での隣接したフレームでは動きの情報が少ない，ii)トリミングされていないビデオは無駄なクリップや，同じイベントの繰り返しなど，多くの無意味な情報を含む，以上の2点の理由で非効率的である．より効率的な行動認識のために，クリップ全体から特徴量を得るのではなく，クリップの最初の画像と音声のペアから認識に必要な特徴量を抽出する手法(IMGAUD2VID)を提案．さらに，IMGAUD2VIDから得られた，画像と音声のペアの中から認識に必要なペアのみを取り出す，attentionベースのLSTM(IMGAUD-SKIMMING)を提案している．

提案手法

Screenshot from 2020-01-21 10-22-25 IMGAUD2VIDは，蒸留によって学習させる．

検証

Comment

音に極端なノイズが含まれている場合，この手法がうまく行くのかどうかが気になる
(i) の問題に関して言えば，downsampling rate を検証するのも面白そう

date

Jan. 21th, 2020

yiskw713 / paper_summary

Listen to Look: Action Recognition by Previewing Audio #116