Open zhaoyucs opened 3 years ago
利用视频中隐含的语义信息做自动导航任务的强化训练
利用第一视角视频做预训练:把视频看做图片序列,假设图片之间隐含action,预测action,类似mask language model pseudo-labeling:用小样本的标准数据集训练一个模型去自动标注大数据集,相当于meta learning了。
一些强化学习的东西,比如Qlearning 利用视频资源的方式,相比于单个图片,视频是图片的时序序列,蕴含了更多结构性的语义信息。
最终任务是训练agent找东西,一个简单的导航任务
快用videos来预训练吧
As humans, we can efficiently solve such tasks in novel environments in a zero-shot manner. Building computational systems that can similarly leverage such semantic regularities for navigation has been a long-standing goal.
NIPS 2021 还没审完稿呢
利用视频中隐含的语义信息做自动导航任务的强化训练
信息
1 学习到的新东西:
利用第一视角视频做预训练:把视频看做图片序列,假设图片之间隐含action,预测action,类似mask language model pseudo-labeling:用小样本的标准数据集训练一个模型去自动标注大数据集,相当于meta learning了。
2 通过Related Work了解到了哪些知识
一些强化学习的东西,比如Qlearning 利用视频资源的方式,相比于单个图片,视频是图片的时序序列,蕴含了更多结构性的语义信息。
3 实验验证任务,如果不太熟悉,需要简单描述
最终任务是训练agent找东西,一个简单的导航任务
4 在你认知范围内,哪些其它任务可以尝试
快用videos来预训练吧
5 好的词语、句子或段落
As humans, we can efficiently solve such tasks in novel environments in a zero-shot manner. Building computational systems that can similarly leverage such semantic regularities for navigation has been a long-standing goal.