yiskw713 / paper_summary

Write summaries of papers I've read in Japanese
10 stars 1 forks source link

Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification #102

Open yiskw713 opened 4 years ago

yiskw713 commented 4 years ago

INFO

author

Saining Xie et al.

affiliation

conference or year

ECCV 2018

link

pdf pytorch実装(context gating の実装がないので注意)

概要

動画認識で用いられるネットワークについて検証を行った論文.

  1. 3D conv は必要か?もしそうであれば,どの層で3D conv を用いるべきか,あるいは2D conv を用いるべきなのか?
  2. 3D convのように時空間方向の特徴量を同時に畳み込むべきなのか?それとも,(2+1)D conv のように別々に畳み込みをするべきなのか?
  3. 上記の疑問に対する答えを用いて,既存手法の性能,速度,メモリ使用を改善させるためには,どうすれば良いか?

という3つの疑問に関して検証を行い,それらを元にSeparable 3D CNNI(S3D)というネットワークを提案.

また,context gating(#101 )を時間方向や空間方向の次元を持つ特徴量にも使えるように拡張した.

99 との違いは全結合層が1つであることと,全結合層でチャネル数が変わらないこと.

通常.全結合層の最終層の後に用いられ,クラス同士の関係を捉えるような役割を持つ.

提案手法

Screen Shot 2020-01-09 at 16 03 33

上図のような4通りのネットワークについて検証している. 結果としては,top-heavy 型のネットワークが精度,速度の両方の面で良い.

Screen Shot 2020-01-09 at 16 04 36 Screen Shot 2020-01-09 at 16 03 57

検証

S3Dは,I3Dに比べて性能が高く,Context Gating を加えることで,さらなる精度向上を確認した.

Screen Shot 2020-01-09 at 16 05 03

Comment

date

Jan. 7th, 2020