lezhang-thu / HelloWorld

Sentinel
2 stars 0 forks source link

research steps #8

Open lezhang-thu opened 7 years ago

lezhang-thu commented 7 years ago

1. 终于发现了程序的bug了。 其设置了太大的replay buffer的size. 如果它是有16个进程的话,每一个都是11G的要求, 那么,即使是用np.memnp, 其的空间需求也是惊人的! 反正,这个就是它的原因,解释了为什么到了一定的时候,就直接exit, 也不报错。

lezhang-thu commented 7 years ago

目前可以考虑的点: 1. dueling的思想, 分离V和A【模型网络方面】 2. policy+q-learning 【需要算法理论推导】 3. 课程学习 【trick】 4. 栓到阶梯训练【trick + 网络模型】 5. 通过添加记忆模型,判断agent是否陷入局部地图,从而改变奖励,强制agent进入新状态【trick】 6. 两个网络,类似于CMU,判断agent是否进入已知、安全地图,从而可以再一段时间内减少动作个数,加快训练【网络模型】 7. 利用人的经验提升性能, 借鉴DQFD、 from human preference(论文题目忘了,你百度能查到)【网络模型】 上述几个小点, 56可以结合, 47 可以结合, 有想法的话12可以看看怎么结合, 3就真的是个trick, 谁都能用。。。。

lezhang-thu commented 7 years ago

LEARNING TO ACT BY PREDICTING THE FUTURE

lezhang-thu commented 7 years ago

大半年前还在做围棋的时候,有位前辈在开会时问我,找个数据集画个网络图训练模型大家都会,作为一个研究员,你的核心技能是什么?我当时无言以对,心里虽早有答案,可无法说出口。因为我知道,梦想在未成时一文不值。而让它变得有价值,是自己的责任。

现在回想起来,“失败是成功之母”并不对,“不历风雨如何见彩虹”也不对,因为喊着这些口号的时候,依然认为失败或者风雨是世上的稀罕事物,而成功则是要追求的目标。殊不知这些观念,正是阻碍前进的最大原因。当失败到习以为常,当每时每刻都在风雨中穿行,当不再存有失败的概念,而只留下不停尝试的好奇心和不停总结的习惯,成功才可能悄然现身。而伴随而来的,也不是那种梦寐以求的”我也终于牛了一次”的狂喜,而只是“啊,原来如此”的平静。