XFeiF / ComputerVision_PaperNotes

📚 Paper Notes (Computer vision)
1 stars 0 forks source link

20ECCV # Self-supervised Video Representation Learning by Pace Prediction #35

Closed XFeiF closed 3 years ago

XFeiF commented 3 years ago

Authors: Jiangliu Wang, Jianbo Jiao and Yunhui Liu


Main idea:

teaser

Framework:

framework

XFeiF commented 3 years ago

这篇沿袭了自然图像SSL构建Pretext tasks的思路,并加入了contrastive learning。其主要依托的temporal信息还是pace (speed)。

首先pretext task构建,对pace进行分类,那么就需要构建不同速度的motion的样本。作者设计了三类速度,正常、快速、慢速。首先第一帧从原始video里随机选择。然后:

如此就构建了一个样本与速度p相对应的分类任务。使用交叉熵损失。但是,为了避免“短路解”,即神经网络惰性原理,对每个clip的每个frame分别使用color jitter。实验证明对每个frame应用比对整个video性能要好。

其次是对比学习。作者针对pace设计了两种不同方式构成positive-/negative pairs的方式:

模型结构如上图所示。核心包括三部分,数据增强模块,分类模块和对比学习模块。但是没有说清楚对比学习这里有没有加projection head。

损失函数包含了两个不同任务,因此作者也相应为两个子loss增加了权重超参数,但是两个loss都加超参数权重的话有些多余了。个人感觉只加1个就可以,相当于一个loss的权重恒定为1,调整另一个loss的权重。

实验使用的数据集包括UCF101, HMDB51,Kinetics400。使用K400和UCF101作pretrain,之后在UCF101和HMDB51上进行验证。 实验包括:

整体来说,这篇文章是pretext task和contrastive learning结合的multi-task方法,利用的依然是速度,这个速度有很多不同的翻译,很多论文里也用了不同的表达方式,例如speed,pace和tempo,但本质还是一样的。 正负样本对: 相同内容不同速度为正样本对。