XFeiF / ComputerVision_PaperNotes

📚 Paper Notes (Computer vision)
1 stars 0 forks source link

21AAAI | Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion #27

Closed XFeiF closed 3 years ago

XFeiF commented 3 years ago

Paper
Code-PyTorch

XFeiF commented 3 years ago

这篇文章的出发点是专注spatialtemporal整体特征的模型在很多类上“偷懒”,只通过motion的scene信息对motion进行分类,为了得到更好的特征,就需要分解场景scene和动作motion。 最重要的地方在于分别针对spatial和temporal的disturbance方法,以及positive,negative的构建:

Loss构建:

本文的positive和negative的设定基于的强约束是 motion 最重要,迫使模型学习motion,而非scene的特征。说是分解,不如说使模型特定抑制一方。其他一些论文的方法里更倾向于是在学习spatialtemporal的特征的同时强调动作信息,而不是“抑制”。

另外,本文利用了多模态信息,在于其它方法比较的时候没有做到公正,提到了CVRL却没有比较性能。整体性能上也达不到2020年的SoTA。