Closed XFeiF closed 3 years ago
这篇文章将Video Playback Rate Perception(PRP,也就是视频播放“速度”)作为信号,首先通过feature encoder获取特征,接着分别通过:
时间分辨率(temporal resolution)的高低对应播放速度的快慢。时间分辨率低,播放速度慢;时间分辨率高,播放速度快。
长期表征表示global的特征,短期表征表示local (frame-level) 的特征。判别式感知模型从整体特征出发对 playback rate 进行分别,所以是长期表征。生成式感知模型通过重点重构attention map的区域,关注如何将中间缺少的帧勾勒出来,因此是短期表征。
.
上图是PRP的流程示意图。主要包含Dilated sampling空洞采样,和感知建模两部分。
下图是PRP的模型结构图。文章在三种不同的backbone network ( C3D, R3D, R(2+1)D )上进行实验。可以看到它的loss由两部分组成,DP (Discriminative Perception) Loss, GP(Generative Perception) Loss。
.
实验在UCF101和HMDB51数据集上测试action classification和video retrieval的性能。
Ablation Study得出速度$s \in {1,2,4,8}$中最好,重构率$r=2$。
最终性能上,UCF101 (C3D 69.1%, R3D 66.5%, R(2+1)D 72.1%)。
总的来说,这篇文章阐述“速度”的角度、说法与前面的文章差别较大,它用“Video playback rate"来代替速度一词。从创新角度来看,主要是multi-task(discriminative + generative),以及motion attention map的实现。
Paper
Code
Authors:
Yuan Yao, Chang Liu, Dezhao Luo, Yu Zhou, Qixiang Ye