[2019] Long-Term Feature Banks for Detailed Video Understanding

0. 論文

タイトル

Long-Term Feature Banks for Detailed Video Understanding

リンク

http://openaccess.thecvf.com/content_CVPR_2019/papers/Wu_Long-Term_Feature_Banks_for_Detailed_Video_Understanding_CVPR_2019_paper.pdf https://github.com/facebookresearch/video-long-term-feature-banks

著者

Chao-Yuan Wu, Christoph Feichtenhofer, Haoqi Fan, Kaiming He, Philipp Krähenbühl, Ross Girshick (FAIR)

投稿日付

CVPR 2019

1. どんなもの？

Video Understanding において、多くの既存モデルでは2-5秒の短い時間しか見ていないのに対して、コンテキストを正しく理解するには映像全体から情報を抽出する必要があるとして、既存モデルを拡張するための long-term feature bank を提案。 3D CNN の既存モデルに提案手法を取り入れることで、AVA, EPIC-Kitchens, Charades などの Video Dataset で SoTA を更新した。

2. 先行研究と比べてどこがすごい？

長いスパンの情報を取り入れる手法は存在するが、過去のデータを先に何らかのモデルで特徴量に変換しておき、モデルに入力として入れるという手法を取っており、end-to-end でない、先に計算している特徴量がタスクについて最適化されていない、などの課題がある。提案手法では2つを分離し、 long-term feature bank はあくまで予備のコンポーネントとして存在し、既存モデルに拡張として追加できるようになっている。 End-to-end な学習で、短いスパンの特徴を強く考慮しつつ、long-term な情報も取り入れることが出来る研究は初。

3. 技術や手法のキモはどこ？

Long-term Feature Bank を外部コンポーネントとしたことで、既存モデルを拡張して使うことが出来る。

4. どうやって有効だと検証した？

AVA, EPIC-Kitchens, Charades のデータセットに対して既存モデルを拡張する形で実験し、SOTAを更新。

5. 議論はある？

より長いコンテキストが必要なタスクでより効果が見られるので、そのようなデータセットが新たに出たら効果を発揮できそう。

cfiken / paper-reading