NiyunZhou / The21-dayExpendables

We are the 21-day expandables of a kaggle competition.
Apache License 2.0
15 stars 4 forks source link

Temporal Activity Detection in Untrimmed Videos with Recurrent Neural Networks #nips2016 #8

Open haozheji opened 7 years ago

haozheji commented 7 years ago

iccv两年一届,今年的已经要到10月份了,找到一篇16年nips的workshop。

Source:

nips2016 workshop Temporal Activity Detection in Untrimmed Videos with Recurrent Neural Networks

date:11 Dec 2016

Related works:

ICCV2015 Describing Videos by Exploiting Temporal Structure 用的方法是CNN+LSTM (本文应该是参考它的方法) 生成对视频的描述。

Method

(3D CNN处理空间和短时间关联+RNN处理长程时间关联)合成一个框架。

视频处理:分为若干16帧的片段 (16-frames clips) 大小归为171×128作为3DCNN的输入,后接全连接层提取特征。

Thoughts:考虑使用全卷积 pros: 可以接受任何尺寸的输入 cons:增大计算量。

Architecture C3D-f6

input(4096) - dropout(0.5) - N × lstm(c) - dropout(.5) - softmax(K+1)

post-processing

模型预测结果:“sequence of class probabilities for each 16-frame video clip” 16帧视频片段的预测类别序列

时序定位(temporal localization) (作者参加的比赛的一个要求,除了给出类别还要找到视频中的一帧图像来概括这个类别)

1.对预测结果序列平滑处理 (每k个一组取平均)

2.对每一帧二分类:”activity“ vs ”no-activity“

activity:所有活动类别的概率和

no-activity:背景的概率

3.选取”活动概率大于阈值“的画面,且该画面预测类别与视频类别相同

Data set

ActivityNet Challenge 2016: 640 hours of video & 64 million frames 总大小600GB左右

50% for training, 25% for validation and 25% for testing

Training

Results

分类的结果(时序定位应该在本次比赛中不需要)

Code

authors' github

源码是用keras写的,也可以用tf backend. 作者用的是theano backend.

fine-tuned 的可能? (updating)

NiyunZhou commented 7 years ago

@cdjhz 这篇文章在比赛中的最终名次是?另外,这篇文章参加的比赛和我们的比赛计算准确度的方式是否一致?

haozheji commented 7 years ago

这篇paper得了第十名(teamname: UPC)。分类第一名的也有release他们的code, 发在了16年的ECCV上 Temporal Segment Networks: Towards Good Practices for Deep Action Recognition @y-wan @SophieGuan 提醒一下temporal(时序)也可以作为关键词 activity net比赛最终评判标准应该是mAP-50 (mean average precision) 我们比赛的标准是GAP (global average precision)

NiyunZhou commented 7 years ago

@cdjhz 这个方法的思路值得学习,稍后如果有必要,我们会考虑尝试。 @SophieGuan Temporal Segment Networks: Towards Good Practices for Deep Action Recognition 这篇paper应该与我们的工作比较相关。

SophieGuan commented 7 years ago

好的,我看一下这篇文章