Open yiskw713 opened 4 years ago
Christoph Feichtenhofer
Facebook AI Research (FAIR)
CVPR2020
pdf slowfast repositroyにコードが上がるらしい
小さな画像分類のアーキテクチャを,空間,時間,幅,奥行きの複数のネットワーク軸に沿って拡張する効率的な動画認識モデルである X3D を提案. 各ステップで一つの軸を拡張するシンプルな stepwise network expansion approach を採用し,精度と複雑さのトレードオフを実現.
動画認識のためのニューラルネットは,2D画像アーキテクチャを時間方向に拡張したものがほとんどである. これらの拡張は精度は向上する一方で,計算量も増大し,トレードオフの関係にある.
本研究では,小さな2Dアーキテクチャをベースに複数ある軸をそれぞれ拡張することによって,時空間方向のアーキテクチャを得る. 小さな2Dアーキテクチャは mobilenet の channel-wise separable convolution(depthwise conv + point-wise conv(1x1conv)) を元にしている.
特に以下の異なる軸間でのトレードオフについて検証している.
Apr. 13th, 2020
INFO
author
Christoph Feichtenhofer
affiliation
Facebook AI Research (FAIR)
conference or year
CVPR2020
link
pdf slowfast repositroyにコードが上がるらしい
概要
小さな画像分類のアーキテクチャを,空間,時間,幅,奥行きの複数のネットワーク軸に沿って拡張する効率的な動画認識モデルである X3D を提案. 各ステップで一つの軸を拡張するシンプルな stepwise network expansion approach を採用し,精度と複雑さのトレードオフを実現.
動画認識のためのニューラルネットは,2D画像アーキテクチャを時間方向に拡張したものがほとんどである. これらの拡張は精度は向上する一方で,計算量も増大し,トレードオフの関係にある.
本研究では,小さな2Dアーキテクチャをベースに複数ある軸をそれぞれ拡張することによって,時空間方向のアーキテクチャを得る. 小さな2Dアーキテクチャは mobilenet の channel-wise separable convolution(depthwise conv + point-wise conv(1x1conv)) を元にしている.
特に以下の異なる軸間でのトレードオフについて検証している.
提案手法
検証
新規性
議論,展望
Comment
date
Apr. 13th, 2020