20ECCV # Self-supervised Video Representation Learning by Pace Prediction

这篇沿袭了自然图像SSL构建Pretext tasks的思路，并加入了contrastive learning。其主要依托的temporal信息还是pace (speed)。

首先pretext task构建，对pace进行分类，那么就需要构建不同速度的motion的样本。作者设计了三类速度，正常、快速、慢速。首先第一帧从原始video里随机选择。然后：

正常：从第一帧开始之后的若干帧。 (2,3,4,5,6)
快速：从第一帧开始，取原始video每p帧的一帧作为输入。不同p表示不同的速度。 (2,4,6,8,10)
慢速：从第一帧开始，在原始video下一帧之前重复当前帧p-1次，表示1/p的速度。 (2,2,3,3,4,4)

如此就构建了一个样本与速度p相对应的分类任务。使用交叉熵损失。但是，为了避免“短路解”，即神经网络惰性原理，对每个clip的每个frame分别使用color jitter。实验证明对每个frame应用比对整个video性能要好。

其次是对比学习。作者针对pace设计了两种不同方式构成positive-/negative pairs的方式：

Same Context：不同速度但采样自相同的video的clip，它们之间共享上下文信息，但是速度不同，构成positive pair。来自不同video的clip之间构成negative pairs。这样做迫使模型关注上下文内容信息。
Same Pace: mini-batch中相同速度的clips构成positive pairs，不管是否来自同一个video。不同速度的clip构成negative pairs。通过这样做，使模型关注到速度信息。（这一点感觉不太合理，不同动作即使以相同速度播放，它们的相对速度之间还是存在差距的，比如跑步和走路，马拉松和百米竞速等。因此相同播放速度构成positive pairs效果应该很有限。）

模型结构如上图所示。核心包括三部分，数据增强模块，分类模块和对比学习模块。但是没有说清楚对比学习这里有没有加projection head。

损失函数包含了两个不同任务，因此作者也相应为两个子loss增加了权重超参数，但是两个loss都加超参数权重的话有些多余了。个人感觉只加1个就可以，相当于一个loss的权重恒定为1，调整另一个loss的权重。

实验使用的数据集包括UCF101， HMDB51，Kinetics400。使用K400和UCF101作pretrain，之后在UCF101和HMDB51上进行验证。实验包括：

Ablation Study:
- 三种不同backbone模型，R(2+1)D的性能较好；
- 只有分类任务即可取得不错的性能，速度设置p=[1, 4] (4类)最好，color jittering加上后又有提升；
- same context的设置比same pace好很多。same pace和分类任务结合时损害了整体性能，而same context和分类任务结合则进一步提高了性能；作者猜想same pace性能不佳的原因是clips趋向于同于速度，导致负样本对变少，无法进行对比学习。
- 加入projection head之后性能略有提升。
ActionRecognition: S3D-G, 224, UCF101 pretrain, UCF101 Evaluation: 87.1
Video Retrieval

整体来说，这篇文章是pretext task和contrastive learning结合的multi-task方法，利用的依然是速度，这个速度有很多不同的翻译，很多论文里也用了不同的表达方式，例如speed，pace和tempo，但本质还是一样的。 正负样本对：相同内容不同速度为正样本对。

XFeiF / ComputerVision_PaperNotes

20ECCV # Self-supervised Video Representation Learning by Pace Prediction #35

Main idea:

Framework: