yiskw713 / paper_summary

Write summaries of papers I've read in Japanese
10 stars 1 forks source link

Listen to Look: Action Recognition by Previewing Audio #116

Open yiskw713 opened 4 years ago

yiskw713 commented 4 years ago

INFO

author

Ruohan Gao, Tae-Hyun Oh, Kristen Grauman, Lorenzo Torresani

affiliation

The University of Texas at Austin, Facebook AI Research

conference or year

arXiv:1912.04487, 2019

link

pdf project page

概要

Screenshot from 2020-01-21 10-22-12

行動認識において,トリミングされていない長い動画をクリップに分割し,すべてのクリップを用いて分類を行うのは,i)クリップ内での隣接したフレームでは動きの情報が少ない,ii)トリミングされていないビデオは無駄なクリップや,同じイベントの繰り返しなど,多くの無意味な情報を含む,以上の2点の理由で非効率的である. より効率的な行動認識のために,クリップ全体から特徴量を得るのではなく,クリップの最初の画像と音声のペアから認識に必要な特徴量を抽出する手法(IMGAUD2VID)を提案.さらに,IMGAUD2VIDから得られた,画像と音声のペアの中から認識に必要なペアのみを取り出す,attentionベースのLSTM(IMGAUD-SKIMMING)を提案している.

提案手法

Screenshot from 2020-01-21 10-22-25 IMGAUD2VIDは,蒸留によって学習させる.

検証

Comment

date

Jan. 21th, 2020