Q-learning 和 Double Q-learning — Feedliu's Blogs

Q-learning是一种无模型的、异步策略、时间差分（TD）控制方法，关于无模型、异步策略、时间差分、预测和控制等概念，在先前的强化学习笔记中有详细描述。Double Q-learning是针对Q-learning的缺点提出的一种改进方法。

feedliu / blog-comments