Temporal Activity Detection in Untrimmed Videos with Recurrent Neural Networks #nips2016

haozheji commented 7 years ago

iccv两年一届，今年的已经要到10月份了，找到一篇16年nips的workshop。

Source：

nips2016 workshop Temporal Activity Detection in Untrimmed Videos with Recurrent Neural Networks

date：11 Dec 2016

Related works：

ICCV2015 Describing Videos by Exploiting Temporal Structure 用的方法是CNN+LSTM (本文应该是参考它的方法) 生成对视频的描述。

Method

(3D CNN处理空间和短时间关联+RNN处理长程时间关联)合成一个框架。

视频处理：分为若干16帧的片段 (16-frames clips) 大小归为171×128作为3DCNN的输入，后接全连接层提取特征。

Thoughts:考虑使用全卷积 pros: 可以接受任何尺寸的输入 cons：增大计算量。

Architecture C3D-f6

input(4096) - dropout(0.5) - N × lstm(c) - dropout(.5) - softmax(K+1)

post-processing

模型预测结果：“sequence of class probabilities for each 16-frame video clip” 16帧视频片段的预测类别序列

"activity prediction" 预测结果取平均
” predicted class“ 取最大

时序定位(temporal localization) （作者参加的比赛的一个要求，除了给出类别还要找到视频中的一帧图像来概括这个类别）

1.对预测结果序列平滑处理（每k个一组取平均）

2.对每一帧二分类：”activity“ vs ”no-activity“

activity：所有活动类别的概率和

no-activity：背景的概率

3.选取”活动概率大于阈值“的画面，且该画面预测类别与视频类别相同

Data set

ActivityNet Challenge 2016: 640 hours of video & 64 million frames 总大小600GB左右

50% for training, 25% for validation and 25% for testing

Training

Results

分类的结果（时序定位应该在本次比赛中不需要）

Code

authors' github

源码是用keras写的，也可以用tf backend. 作者用的是theano backend.

fine-tuned 的可能？ (updating)

NiyunZhou commented 7 years ago

@cdjhz 这篇文章在比赛中的最终名次是？另外，这篇文章参加的比赛和我们的比赛计算准确度的方式是否一致？

haozheji commented 7 years ago

这篇paper得了第十名(teamname: UPC)。分类第一名的也有release他们的code, 发在了16年的ECCV上 Temporal Segment Networks: Towards Good Practices for Deep Action Recognition @y-wan @SophieGuan 提醒一下temporal(时序)也可以作为关键词 activity net比赛最终评判标准应该是mAP-50 (mean average precision) 我们比赛的标准是GAP (global average precision)

NiyunZhou commented 7 years ago

@cdjhz 这个方法的思路值得学习，稍后如果有必要，我们会考虑尝试。 @SophieGuan Temporal Segment Networks: Towards Good Practices for Deep Action Recognition 这篇paper应该与我们的工作比较相关。

SophieGuan commented 7 years ago

好的，我看一下这篇文章

NiyunZhou / The21-dayExpendables