Open innovation64 opened 1 year ago
表格型方法—— Tabular Method : 针对状态和动作空间足够小去用数组或元组表现估计价值函数的问题类型的方法。 Q 学习 是一个表格型方法的例子,其表被用于表示不同的状态-动作对的值。
深度 Q 学习 —— Deep Q-Learning : 是一种给定一个状态使用神经网络去估计该状态下每个可能动作的不同 Q 值的方法。他通常用来解决不适用表格型方法 Q 学习的观测空间过大的情况。
时序限制 —— Temporal Limitation :当环境状态以帧的形式呈现其实很困难。单独帧自己不提供时序信息。为了获取时序信息我们需要一堆帧堆在一起。
深度 Q 学习的部分:
稳定深度 Q 学习 的方法:
经验回放 —— Experience Replay 创建一个回放内存来保存可以在训练过程中重复使用的经验样本。这样,智能体就可以多次从同一经验中学习。而且,他可以帮助智能体在获得新的经验时不忘记以前的经验。
随机采样—— Random sampling :从回放缓冲区中进行随机采样可以消除观察序列中的相关性,并防止动作值震荡或灾难性发散
固定 Q 目标 —— Fixed Q-Target : 为了计算 Q 目标 我们需要通过贝尔曼方程估计下一个状态 Q 值 。这里有一个问题,同样的网络权重计算 Q 目标 和 Q 值。这意味着每一个时间步我们确定 Q 值, Q 目标 同样也会跟着移动。为了避免这种事情发生,一个分离的固定参数的网络去估计时序差分目标。目标网络通过我们的在每 C 步复制深度 Q 网络的参数进行更新。
双深度Q网络 —— Double DQN : 一种用于解决 Q 值高估的方法。这个方法用两个网络从目标价值生成中去解除动作选择:
雅达利太空入侵—— Atari Space Invaders :是一款由Tomohiro Nishikado于1978年开发的射击游戏。游戏的目标是使用水平移动的激光消除下降的外星人波,同时尽可能多地积累分数。这款游戏在当时是一款开创性的射击游戏,为该类型设定了标准。¹ 1980年,Atari VCS(后来更名为Atari 2600)版本的Space Invaders成为了视频游戏机的第一个杀手级应用程序,推动了VCS销售量的增长。
优先经验回放 —— Prioritized Experience Replay :(PER)是一种深度强化学习中的方法,它可以提高训练效率和性能。 PER的核心思想是在做经验回放的时候考虑样本的优先级,即重要的样本应该给予较大的采样优先级,从而更加高效地学习。
Optuna —— 是一个为机器学习,深度学习特别设计的自动超参数优化框架,具有命令式的, define-by-run 风格的 API。由于这种 API 的存在,用 Optuna 编写的代码模块化程度很高,Optuna 的用户因此也可以动态地构造超参数的搜索空间。
Q-learning:
Q-table:
状态-价值函数—— The state-value function :
动作-价值函数—— The action-value function :
Epsilon-greedy 策略 —— Epsilon-greedy strategy :
贪婪策略 —— Greedy strategy :
贝尔曼方程 —— The Bellman Equation :
蒙特卡罗 —— Monte Carlo :
时序差分学习 —— Temporal Difference Learning :
Frozen-Lake-v1(non-slippery and slippery version) :
自动驾驶出租车 —— An autonomous taxi:
偏差--方差权衡——Bias-variance tradeoff:
Bias-Variance Trade-off 是机器学习领域的非常核心与重要的基本理论。
优势函数——Advantage Functions:
深度强化学习涉及建立一个深度学习模型,该模型能够在输入特征和未来的折扣奖励值(也称为 Q 值)之间进行函数逼近。从所有的 q 值中,智能体需要选择最好的一个来获得最优路径。这可能很困难,因为 Q 函数是基于值的函数并且具有高可变性。为了减少这种可变性,我们可以使用 Advantage 函数。
优势演员--评论员算法——Advantage Actor-Critic:
演员-评论员算法是一种结合策略梯度和时序差分学习的强化学习方法,其中,演员是指策略函数,即学习一个策略以得到尽可能高的回报。评论员是指价值函数,对当前策略的值函数进行估计,即评估演员的好坏。借助于价值函数,演员-评论员算法可以进行单步参数更新,不需要等到回合结束才进行更新。在演员-评论员算法里面,最知名的算法就是异步优势演员-评论员算法。如果我们去掉异步,则为优势演员-评论员(advantage actor-critic,A2C)算法。
本 issue 专门汇总本教程各个单元的中文版本的术语与相关注意词汇。 请各位译者自行汇总重要概念与相关词汇在本 issue 下面
注意
第一单元:XXXX @translators
[术语]: