izhx / paper-reading

组内追更订会相关论文
7 stars 2 forks source link

Semantic Visual Navigation by Watching YouTube Videos #8

Open zhaoyucs opened 3 years ago

zhaoyucs commented 3 years ago

利用视频中隐含的语义信息做自动导航任务的强化训练

信息

1 学习到的新东西:

利用第一视角视频做预训练:把视频看做图片序列,假设图片之间隐含action,预测action,类似mask language model pseudo-labeling:用小样本的标准数据集训练一个模型去自动标注大数据集,相当于meta learning了。

2 通过Related Work了解到了哪些知识

一些强化学习的东西,比如Qlearning 利用视频资源的方式,相比于单个图片,视频是图片的时序序列,蕴含了更多结构性的语义信息。

3 实验验证任务,如果不太熟悉,需要简单描述

最终任务是训练agent找东西,一个简单的导航任务

4 在你认知范围内,哪些其它任务可以尝试

快用videos来预训练吧

5 好的词语、句子或段落

As humans, we can efficiently solve such tasks in novel environments in a zero-shot manner. Building computational systems that can similarly leverage such semantic regularities for navigation has been a long-standing goal.

izhx commented 3 years ago

NIPS 2021 还没审完稿呢