yiskw713 / paper_summary

Write summaries of papers I've read in Japanese
10 stars 1 forks source link

X3D: Expanding Architectures for Efficient Video Recognition #132

Open yiskw713 opened 4 years ago

yiskw713 commented 4 years ago

INFO

author

Christoph Feichtenhofer

affiliation

Facebook AI Research (FAIR)

conference or year

CVPR2020

link

pdf slowfast repositroyにコードが上がるらしい

概要

小さな画像分類のアーキテクチャを,空間,時間,幅,奥行きの複数のネットワーク軸に沿って拡張する効率的な動画認識モデルである X3D を提案. 各ステップで一つの軸を拡張するシンプルな stepwise network expansion approach を採用し,精度と複雑さのトレードオフを実現.

動画認識のためのニューラルネットは,2D画像アーキテクチャを時間方向に拡張したものがほとんどである. これらの拡張は精度は向上する一方で,計算量も増大し,トレードオフの関係にある.

本研究では,小さな2Dアーキテクチャをベースに複数ある軸をそれぞれ拡張することによって,時空間方向のアーキテクチャを得る. 小さな2Dアーキテクチャは mobilenet の channel-wise separable convolution(depthwise conv + point-wise conv(1x1conv)) を元にしている.

特に以下の異なる軸間でのトレードオフについて検証している.

提案手法

検証

新規性

議論,展望

Comment

date

Apr. 13th, 2020