Open haozheji opened 7 years ago
@cdjhz 这篇文章在比赛中的最终名次是?另外,这篇文章参加的比赛和我们的比赛计算准确度的方式是否一致?
这篇paper得了第十名(teamname: UPC)。分类第一名的也有release他们的code, 发在了16年的ECCV上 Temporal Segment Networks: Towards Good Practices for Deep Action Recognition @y-wan @SophieGuan 提醒一下temporal(时序)也可以作为关键词 activity net比赛最终评判标准应该是mAP-50 (mean average precision) 我们比赛的标准是GAP (global average precision)
@cdjhz 这个方法的思路值得学习,稍后如果有必要,我们会考虑尝试。 @SophieGuan Temporal Segment Networks: Towards Good Practices for Deep Action Recognition 这篇paper应该与我们的工作比较相关。
好的,我看一下这篇文章
iccv两年一届,今年的已经要到10月份了,找到一篇16年nips的workshop。
Source:
nips2016 workshop Temporal Activity Detection in Untrimmed Videos with Recurrent Neural Networks
date:11 Dec 2016
Related works:
ICCV2015 Describing Videos by Exploiting Temporal Structure 用的方法是CNN+LSTM (本文应该是参考它的方法) 生成对视频的描述。
Method
(3D CNN处理空间和短时间关联+RNN处理长程时间关联)合成一个框架。
视频处理:分为若干16帧的片段 (16-frames clips) 大小归为171×128作为3DCNN的输入,后接全连接层提取特征。
Thoughts:考虑使用全卷积 pros: 可以接受任何尺寸的输入 cons:增大计算量。
Architecture C3D-f6
input(4096) - dropout(0.5) - N × lstm(c) - dropout(.5) - softmax(K+1)
post-processing
模型预测结果:“sequence of class probabilities for each 16-frame video clip” 16帧视频片段的预测类别序列
时序定位(temporal localization) (作者参加的比赛的一个要求,除了给出类别还要找到视频中的一帧图像来概括这个类别)
1.对预测结果序列平滑处理 (每k个一组取平均)
2.对每一帧二分类:”activity“ vs ”no-activity“
activity:所有活动类别的概率和
no-activity:背景的概率
3.选取”活动概率大于阈值“的画面,且该画面预测类别与视频类别相同
Data set
ActivityNet Challenge 2016: 640 hours of video & 64 million frames 总大小600GB左右
50% for training, 25% for validation and 25% for testing
Training
Results
分类的结果(时序定位应该在本次比赛中不需要)
Code
authors' github
源码是用keras写的,也可以用tf backend. 作者用的是theano backend.
fine-tuned 的可能? (updating)