Closed XFeiF closed 3 years ago
这篇文章的出发点是专注spatialtemporal整体特征的模型在很多类上“偷懒”,只通过motion的scene信息对motion进行分类,为了得到更好的特征,就需要分解场景scene和动作motion。 最重要的地方在于分别针对spatial和temporal的disturbance方法,以及positive,negative的构建:
Loss构建:
本文的positive和negative的设定基于的强约束是 motion 最重要,迫使模型学习motion,而非scene的特征。说是分解,不如说使模型特定抑制一方。其他一些论文的方法里更倾向于是在学习spatialtemporal的特征的同时强调动作信息,而不是“抑制”。
另外,本文利用了多模态信息,在于其它方法比较的时候没有做到公正,提到了CVRL却没有比较性能。整体性能上也达不到2020年的SoTA。
Paper
Code-PyTorch