MorvanZhou / Reinforcement-learning-with-tensorflow

Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学
https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/
MIT License
8.9k stars 5.01k forks source link

DeepMind涉嫌抄袭你? :) #45

Closed freelogic closed 6 years ago

freelogic commented 6 years ago

Distributed Proximal Policy Optimization (DPPO) (Tensorflow)中提到的不让worker计算和更新梯度,而只是传数据(obversaion),让PPO飞起来。你的这个想法也许超前于DeepMind的IMPALA的并行智能体结构(http://i.dataguru.cn/mportal.php?aid=13103&mod=view)。

从计算机科学角度,将观察,计算,合并,不同计算量的层次划分为实体,是典型的设计模式之一,但rl太难,能懂会用就不错了,所以不可能像JAVA框架这样快速接近哲学和数学高度。 DeepMind涉嫌抄袭你?还是说你就职于DeepMind? anyway 感谢你的rl入门,痛快的看了我一个下午,还发着高烧,非常感谢你的教程,过瘾。

MorvanZhou commented 6 years ago

我看过他们这篇论文。论文中有两个contribution ,其中一个是我说的observation 的并行。哈哈我还挺意外的。按时间的话,是我比较先,在去年我就想到了。但是按publication 的话,他们publish 了而我没有。我不在乎他们是不是参考了我的。这只是一个小的贡献而已,一定会被别人想到的。