Going Deeper into First-Person Activity Recognition

一言で言うと一人称動画における行動認識において、appearance-based streamとmotion-based streamの２つのstreamを共同学習するtwin stream networkを提案。

論文リンク http://www.cs.cmu.edu/~kkitani/pdf/MFK-CVPR2016.pdf

著者・所属機関

投稿日時概要一人称動画における行動認識において、appearance-based streamで手の位置を把握し、手の近くにあるオブジェクトを識別する。motion-based streamではモーション情報を分析する。この２つのstreamを共同学習するtwin stream networkを提案。損失関数として動作、物体、活動の３つを全体損失として計算することで１つのネットワークで同時学習が可能になった。新規性・差分手法結果ベンチマークに対して平均６．６％の精度向上 object,action,activityを共同学習するとaction,objectｄの認識精度がそれぞれ30%,1４%上昇。コメント

idekazuki / -Paper-summary

Going Deeper into First-Person Activity Recognition #5