XFeiF / ComputerVision_PaperNotes

📚 Paper Notes (Computer vision)
1 stars 0 forks source link

20CVPR # Video Playback Rate Perception for Self-supervised Spatio-Temporal Representation Learning #31

Closed XFeiF closed 3 years ago

XFeiF commented 3 years ago

Paper
Code

Authors:
Yuan Yao, Chang Liu, Dezhao Luo, Yu Zhou, Qixiang Ye

XFeiF commented 3 years ago

这篇文章将Video Playback Rate Perception(PRP,也就是视频播放“速度”)作为信号,首先通过feature encoder获取特征,接着分别通过:

时间分辨率(temporal resolution)的高低对应播放速度的快慢。时间分辨率低,播放速度慢;时间分辨率高,播放速度快。

长期表征表示global的特征,短期表征表示local (frame-level) 的特征。判别式感知模型从整体特征出发对 playback rate 进行分别,所以是长期表征。生成式感知模型通过重点重构attention map的区域,关注如何将中间缺少的帧勾勒出来,因此是短期表征。

PRP.png.
上图是PRP的流程示意图。主要包含Dilated sampling空洞采样,和感知建模两部分。

下图是PRP的模型结构图。文章在三种不同的backbone network ( C3D, R3D, R(2+1)D )上进行实验。可以看到它的loss由两部分组成,DP (Discriminative Perception) Loss, GP(Generative Perception) Loss。 PRP_framework.png.

实验在UCF101和HMDB51数据集上测试action classification和video retrieval的性能。 Ablation Study得出速度$s \in {1,2,4,8}$中最好,重构率$r=2$。
最终性能上,UCF101 (C3D 69.1%, R3D 66.5%, R(2+1)D 72.1%)。

总的来说,这篇文章阐述“速度”的角度、说法与前面的文章差别较大,它用“Video playback rate"来代替速度一词。从创新角度来看,主要是multi-task(discriminative + generative),以及motion attention map的实现。