NiyunZhou / The21-dayExpendables

We are the 21-day expandables of a kaggle competition.
Apache License 2.0
15 stars 4 forks source link

Large-scale video classification with convolutional neural networks.#cvpr 2014 #15

Open SophieGuan opened 7 years ago

SophieGuan commented 7 years ago

我在读ECCV 2016文章的时候发现多篇文章引用了这一篇,因此就先把这篇经典文章读了一下。当然,这篇文章比较老了,所以可能实用价值不大。

Model Part

本文做的是clip level video prediction, 即 treat every video as a bag of short, fixed sized clips. 在预测的时候,对一段video的所有clip预测结果做平均。

主要思想是在CNN做图像分类的结构基础上探索了几种针对视频的结构,包括single frame(对一段clip只提取其中一帧),late fusion(将不同帧内容在第一个全连接层中融合),early fusion(将不同frame内容在第一层卷基层融合), slow fusion(将不同帧内容逐渐融合).

2017-05-16 7 26 38

另外,在训练过程中因为比较耗时,所以作者提出了一种Multiresolution CNN,即将原有的178x178frame分成两个89x89的stream,一个stream用于获取低分辨路的全局信息,另外一个stream用于获取中心区域的内容信息,最后将两个stream融合,这样的结构设计能够提高整个网络的效率。

2017-05-16 7 32 22

DATASET

数据集是Sports-1M,包含1百万youtube视频以及487个运动类别,后面还做了transfer learning的performance比较,用的数据集是UCF-101.

RESULTS

可以看到single-frame的结果本身就很好,甚至好于后面的用了多个frame信息的early fusion方法,slow fusion方法表现最好,就是说在网络传递过程中逐渐融合,这个也许能给我们的模型带来一点启示。

2017-05-16 7 35 07

后面将sports-1M训练得到的模型transfer到UCF-101时,比较了不同的fine-tune结构,发现 fine-tune top 3 layers结果最好。说明虽然视频包含了不同的类别,但前面几层网络还是具有一定的泛化能力。

2017-05-16 7 39 50

文章的conclusion部分有一句话: We find that a single-frame model already displays very strong performance, suggesting that local motion cues may not be critically important, even for a dynamic dataset such as Sports. 之前还看到一篇文章将如何根据一段视频找到它的highlight部分,然后根据这个Highlight生成title,我在想可不可以借鉴这种思想,就是根据video的代表性部分去做classification.

NiyunZhou commented 7 years ago

@SophieGuan 上文提到的思路不错,不过我担心时间不够我们从头去train。很重要的一点是fine tune的效果比从头train要好很多,文章有给解释吗?另外,这篇文章有公开模型参数吗?我个人认为找效果最优的train好的模型来fine tune是比较好的选择,主要还是时间问题。:joy:

SophieGuan commented 7 years ago

@NiyunZhou 关于finetune的结果更好的原因,文章中提了一句,CNN learn more generic features on the bottom of the network (such as edges, local shapes) and more intricate, dataset-specific features near the top of the network. 模型参数并没有公开诶,Karpathy的网站上只有一个demo 😂. 之后再留意一下

NiyunZhou commented 7 years ago

@SophieGuan 好像提的这句也没说得很清楚。我已经记录了,有机会的话就尝试这个模型。

Roooook1E commented 6 years ago

这篇文章中的late fusion是只取一个clip中相隔一段距离的两帧吗?有给代码吗?