DeepMind涉嫌抄袭你? :)

MorvanZhou / Reinforcement-learning-with-tensorflow

Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学

MIT License

8.9k stars 5.01k forks source link

Distributed Proximal Policy Optimization (DPPO) (Tensorflow)中提到的不让worker计算和更新梯度，而只是传数据（obversaion），让PPO飞起来。你的这个想法也许超前于DeepMind的IMPALA的并行智能体结构(http://i.dataguru.cn/mportal.php?aid=13103&mod=view)。

从计算机科学角度，将观察，计算，合并，不同计算量的层次划分为实体，是典型的设计模式之一，但rl太难，能懂会用就不错了，所以不可能像JAVA框架这样快速接近哲学和数学高度。 DeepMind涉嫌抄袭你?还是说你就职于DeepMind? anyway 感谢你的rl入门，痛快的看了我一个下午，还发着高烧，非常感谢你的教程，过瘾。

MorvanZhou / Reinforcement-learning-with-tensorflow

DeepMind涉嫌抄袭你? :) #45