INFO

author

Christoph Feichtenhofer

affiliation

Facebook AI Research (FAIR)

conference or year

CVPR2020

link

pdf slowfast repositroyにコードが上がるらしい

概要

小さな画像分類のアーキテクチャを，空間，時間，幅，奥行きの複数のネットワーク軸に沿って拡張する効率的な動画認識モデルである X3D を提案．各ステップで一つの軸を拡張するシンプルな stepwise network expansion approach を採用し，精度と複雑さのトレードオフを実現．

動画認識のためのニューラルネットは，2D画像アーキテクチャを時間方向に拡張したものがほとんどである．これらの拡張は精度は向上する一方で，計算量も増大し，トレードオフの関係にある．

本研究では，小さな2Dアーキテクチャをベースに複数ある軸をそれぞれ拡張することによって，時空間方向のアーキテクチャを得る．小さな2Dアーキテクチャは mobilenet の channel-wise separable convolution(depthwise conv + point-wise conv(1x1conv)) を元にしている．

特に以下の異なる軸間でのトレードオフについて検証している．

3DCNNに最適な時間サンプリング戦略は何か？短い持続時間のクリップの密なサンプリングよりも，長い入力持続時間と疎なサンプリングの方が好ましいか？
より細かい空間解像度が必要か？従来研究では低解像度画像がよく用いられてきた．また，動画には一般的に画像よりも粗い空間解像度であることが多いが，認識の性能が飽和する最大空間解像度はありますか？
フレームレートは高いがチャネル数の少ないネットワークを持つ方が良いのか(Fast Path in SlowFast)、それとも低フレームレートでチャネル数の多いモデルで処理する方が良いのか(Slow Path in SlowFast)？あるいは，これらの両極端の間にもっと良い関係があるのか？
ネットワーク幅を拡大する場合，ネットワーク幅を全体的に拡大するのと，チャネルごとに分離可能なコンボリューションを用いたモバイル画像分類ネットワークで一般的なように，内側(ボトルネック)の幅を拡大するのとどちらが良いか？
受容野のサイズを十分に大きくし，その成長率をほぼ一定に保つためには，入力解像度を拡大して，より深いところに行くべきなのか，それとも異なる軸に拡大した方が良いのか．これは空間次元と時間次元の両方に当てはまるか？

yiskw713 / paper_summary

X3D: Expanding Architectures for Efficient Video Recognition #132

INFO

author

affiliation

conference or year

link

概要

提案手法

検証

新規性

議論，展望

Comment

date