OpenGVLab / unmasked_teacher

[ICCV2023 Oral] Unmasked Teacher: Towards Training-Efficient Video Foundation Models
https://arxiv.org/abs/2303.16058
MIT License
267 stars 13 forks source link

关于下游任务的问题 #24

Closed qq1332427275 closed 7 months ago

qq1332427275 commented 8 months ago

你好~我对您的项目十分感兴趣,并尝试使用它在我目前的方向中,我的方向是基于视频对人物状态分析,比如视频中驾驶员疲劳检测,想问问作者是否有尝试将您的视频编码器应用于类似的任务?如果我进行尝试你建议使用什么样的方法呢?(在您公布的预训练模型上进行微调?或什么其他操作呢),对于我的任务你认为使用哪种方式更好呢?

Andy1621 commented 7 months ago

没有的,我建议你采用类似baseline的方法,你可以看看你的“人物状态分析”任务中,baseline是基于分类数据集微调过的编码器,还是使用大规模图文预训练的编码器,根据你的需要采取不同的预训练