huggingface-cn / deep-rl-class-zh-CN

This repo contains the syllabus of the Hugging Face Deep Reinforcement Learning Course translated in Chinese.

Apache License 2.0

6 stars 5 forks source link

Glossary - 汇总 #22

Open innovation64 opened 1 year ago

innovation64 commented 1 year ago

本 issue 专门汇总本教程各个单元的中文版本的术语与相关注意词汇。请各位译者自行汇总重要概念与相关词汇在本 issue 下面

注意

汇总不单单包括英文原本术语，还有中文部分不好翻译的相关术语，相关内容补充资料等

格式：

第一单元：XXXX @translators

[术语]：

马尔可夫性质:
- 这意味着我们的智能体采取的行动仅以当前状态为条件，与过去的状态和行动无关。
观测/状态:
- 状态：对世界状态的完整描述。
- 观测：对环境/世界状态的部分描述。
XXXXX
....

innovation64 commented 1 year ago

第一单元：强化学习基础 @innovation64

[术语]：

智能体—— Agent ：
- 智能体学会通过反复试验做出决定，并受到周围环境的奖励和惩罚。
环境—— Environment ：
- 环境是一个模拟世界，智能体可以在其中通过交互来学习。
马尔可夫性质—— Markov Property ：
- 这意味着我们的智能体采取的行动仅以当前状态为条件，与过去的状态和行动无关。
观测/状态—— Observations/State ：
- 状态—— State: ：对世界状态的完整描述。
- 观测—— Observation: ：对环境/世界状态的部分描述。
动作—— Actions ：
- 离散动作—— Discrete Actions ：有限数量的动作，例如向左、向右、向上和向下。
- 连续动作—— Continuous Actions ：动作有无限的可能性；例如，在自动驾驶汽车的情况下，驾驶场景有无限可能的动作发生。
奖励和折扣—— Rewards and Discounting ：
- 奖励：RL 中的基本元素。告诉智能体所采取的行动是好是坏。
- RL 算法专注于最大化累积奖励。
- 奖励假设：RL 问题可以表述为（累积）回报的最大化。
- 执行折扣是因为在开始时获得的奖励更有可能发生，因为他们比长期奖励更可预测。
任务—— Tasks ：
- 回合制的—— Episodic ：有起点和终点。
- 持续的—— Continuous ：有起点但没有终点。
探索与利用的权衡—— Exploration v/s Exploitation Trade-Off
- 探索 —— Exploration ：就是通过尝试随机行动并从环境中接收反馈/回报/奖励来探索环境。
- 利用 —— Exploitation：利用我们对环境的了解以获得最大奖励。
- 探索-利用权衡 —— Exploration-Exploitation Trade-Off ：他平衡了我们想要探索环境的程度和我们想要利用我们对环境的了解程度的程度。
策略 —— Policy ：
- 策略 —— Policy ：他被称为智能体的大脑。他告诉我们在给定状态下采取什么行动。
- 最优策略 —— Optimal Policy ：当智能体根据最优策略采取动作时，会最大化期望回报。他是通过训练学习的。
基于策略的方法 —— Policy-based Methods：
- 一种解决 RL 问题的方法。
- 在这种方法中，直接学习策略。
- 将每个状态映射到该状态下的最佳对应动作。或者在该状态下可能的动作集合的概率分布。
基于价值的方法 —— Value-based Methods：
- 另一种解决强化学习问题的方法。
- 在这里，我们没有训练策略，而是训练了一个价值函数，他将每个状态映射到处于该状态的期望值。
月球着陆器智能体——Lunar Lander agent：
- LunarLander是一款经典的街机游戏。在阿波罗11号登月十周年纪念日的时候，阿塔里（Atari）公司曾经推出过这款名叫“Lunar Lander”的投币式街机游戏。游戏的玩法是通过方向调整和推力控制来引导你的着陆器，将其轻轻地放到安全而平坦的停靠区。如果玩家能将着陆器成功停放在更具挑战的险峻区域，将获得额外的积分。

innovation64 commented 1 year ago

第三单元 : DQN基础 @innovation64

[术语]：

表格型方法—— Tabular Method ：针对状态和动作空间足够小去用数组或元组表现估计价值函数的问题类型的方法。 Q 学习 是一个表格型方法的例子，其表被用于表示不同的状态-动作对的值。
深度 Q 学习 —— Deep Q-Learning ：是一种给定一个状态使用神经网络去估计该状态下每个可能动作的不同 Q 值的方法。他通常用来解决不适用表格型方法 Q 学习的观测空间过大的情况。
时序限制 —— Temporal Limitation ：当环境状态以帧的形式呈现其实很困难。单独帧自己不提供时序信息。为了获取时序信息我们需要一堆帧堆在一起。
深度 Q 学习的部分:
- 采样 —— Sampling ：执行动作并且把观测到的经验储存在回放内存中。
- 训练 —— Training ：元组中的一小批会被随机选出丢入神经网络用梯度下降去更新网络。
稳定深度 Q 学习的方法:
- 经验回放 —— Experience Replay 创建一个回放内存来保存可以在训练过程中重复使用的经验样本。这样，智能体就可以多次从同一经验中学习。而且，他可以帮助智能体在获得新的经验时不忘记以前的经验。
- 随机采样—— Random sampling ：从回放缓冲区中进行随机采样可以消除观察序列中的相关性，并防止动作值震荡或灾难性发散
- 固定 Q 目标 —— Fixed Q-Target ：为了计算 Q 目标 我们需要通过贝尔曼方程估计下一个状态 Q 值 。这里有一个问题，同样的网络权重计算 Q 目标 和 Q 值。这意味着每一个时间步我们确定 Q 值, Q 目标 同样也会跟着移动。为了避免这种事情发生，一个分离的固定参数的网络去估计时序差分目标。目标网络通过我们的在每 C 步复制深度 Q 网络的参数进行更新。
- 双深度Q网络 —— Double DQN ：一种用于解决 Q 值高估的方法。这个方法用两个网络从目标价值生成中去解除动作选择：
  - DQN 网络 —— DQN Network ：为下一个状态筛选最佳动作(有着最高 Q 值 的动作)
  - 目标网络 Target Network ：计算下一个状态采用该动作的目标 Q 值。这种方法减少了 Q 值 的高估，他帮助我们更快训练和更稳定学习。
雅达利太空入侵—— Atari Space Invaders ：是一款由Tomohiro Nishikado于1978年开发的射击游戏。游戏的目标是使用水平移动的激光消除下降的外星人波，同时尽可能多地积累分数。这款游戏在当时是一款开创性的射击游戏，为该类型设定了标准。¹ 1980年，Atari VCS（后来更名为Atari 2600）版本的Space Invaders成为了视频游戏机的第一个杀手级应用程序，推动了VCS销售量的增长。
优先经验回放 —— Prioritized Experience Replay ：（PER）是一种深度强化学习中的方法，它可以提高训练效率和性能。 PER的核心思想是在做经验回放的时候考虑样本的优先级，即重要的样本应该给予较大的采样优先级，从而更加高效地学习。
Optuna —— 是一个为机器学习，深度学习特别设计的自动超参数优化框架，具有命令式的， define-by-run 风格的 API。由于这种 API 的存在，用 Optuna 编写的代码模块化程度很高，Optuna 的用户因此也可以动态地构造超参数的搜索空间。

innovation64 commented 1 year ago

第四单元 : 策略梯度算法基础 @innovation64

[术语]：

爬山法 ——Hill climbing ：算法是一种局部搜索算法，它在增加高度/值的方向上连续移动，以找到山峰或最佳解决问题的方法。它本质上是一种迭代算法，即对于某个问题先给出一个随机的答案，然后不断搜索局域空间的其它解并以增量的方式加到初始解上，如果该增量使得答案更优则保留并继续添加下一个增量，反之则摒弃该增量并继续添加下一个增量，如此反复迭代，直到找不到使当前解更优的增量，最后得到的答案便是所需要的局域最优解。
模拟退火算法——simulated annealing ：模拟退火算法是一种基于概率的算法，来源于固体退火原理。它的算法思想为：先从一个较高的初始温度出发，逐渐降低温度，直到温度降低到满足热平衡条件为止。在每个温度下，进行n轮搜索，每轮搜索时对旧解添加随机扰动生成新解，并按一定规则接受新解
进化策略—— Evolution Strategies：ES是一种基于进化思想的优化算法，它通过模拟自然界中的进化过程来寻找最优解。与遗传算法不同，进化策略不使用交叉和变异操作，而是使用高斯分布来生成新的解。
CartPole —— 是一种经典的强化学习环境，它模拟了一个小车上连接着一个倒立摆的系统。小车可以在水平轨道上左右移动，倒立摆的目标是保持竖直状态。环境的观测量包括小车的位置、速度、倒立摆的角度和角速度。环境的动作空间只有两个离散的动作：向左或向右施加力。环境的奖励机制是每个时间步长给予1分，如果倒立摆倾斜超过15度或者小车移动超出轨道范围，则结束当前回合。
梯度策略方法——Policy-gradient method ：是一类强化学习算法，它依赖于通过梯度下降优化参数化策略，使其对期望回报（长期累积奖励）最大化。策略通常由神经网络或其他函数逼近器参数化，可以使用随机梯度下降进行优化。‘
梯度上升 —— Gradient Ascent ：是一种优化算法，它是梯度下降算法的反向过程。在梯度上升中，我们尝试最大化目标函数，而不是最小化它。梯度上升算法的基本思想是在每个迭代步骤中沿着目标函数的梯度方向移动一小步，以便到达局部最大值
强化算法（蒙特卡罗强化）—— The Reinforce algorithm (Monte Carlo Reinforce) ：是一种基于策略梯度定理定理的强化学习算法，它使用蒙特卡罗方法来估计策略梯度。它的基本思想是，对于每一个回合，根据当前的策略生成一条轨迹，并根据轨迹的总回报来更新策略参数。强化算法不需要知道环境的动态模型，也不需要使用值函数或贝尔曼方程，只需要使用策略函数和奖励函数。
PixelCopter——是一款益智小游戏，也称为“悬停直升机”。在这个游戏中，玩家需要控制一个小直升机，避开障碍物并尽可能长时间地飞行。这个游戏的特点是像素化的图形和简单的操作方式，非常适合休闲娱乐。

innovation64 commented 1 year ago

第五单元 : ML-Agents 基础 @innovation64

[术语]：

ML-Agents —— ML-Agents 是 Unity 的一款开源插件，能够让开发者使用机器学习的算法训练出智能的智能体，并且它的一个很大的优势在于：即使开发者不编写 python 代码，也可以通过已经搭建好的神经网络训练出比较理想的智能体
好奇心机制 —— Curiosity ：一个现代强化学习的两大问题的解决方案是开发智能体内部的奖励函数，即由智能体本身生成的奖励函数。智能体将充当自学者，因为它将是学生和它自己的反馈主人。这种内在的奖励机制被称为好奇心，因为这种奖励会促使智能体探索新奇/不熟悉的状态。为实现这一目标，我们的智能体将在探索新轨迹时获得高额奖励。这种奖励机制的灵感来自于人类的行为方式。我们天生就有探索环境和发现新事物的内在欲望。
Pyramids 环境 —— The Pyramid environment ：环境下我们的目标是训练我们的智能体获得金字塔顶端的金砖。为此，它需要按下一个按钮来生成金字塔，导航到金字塔，将其推倒，然后移动到顶部的金砖。
SnowballTarget 环境 —— The SnowballTarget Environment ：在当前环境下的目标是让 Julien 在有限的时间下尽可能的击打目标(1000 时间戳)。这需要根据目标正确放置位置并且向目标射击。此外，为了避免 “滥发雪球” (也认为每一个时间戳都发射雪球)， Julien 有一个“冷却”系统(这需要等 0.5s 才可以发射下一枚雪球)

innovation64 commented 1 year ago

第七单元 : 多智能体强化学习（MARL）的基础 @innovation64

[术语]：

合作环境 —— Cooperative environments：在这种环境中，你的智能体需要最大化共同的利益。
竞争/对抗环境 —— Competitive/Adversarial environments ：在这种情况下，你的智能体希望通过最小化对手的利益来最大化自身的利益。
分布式系统—— Decentralized system
- 在分布式方法中，我们将所有智能体独立地对待，不考虑其他智能体的存在。
- 在这种情况下，所有智能体将其他智能体视为环境的一部分。
- 这是一个非稳态环境条件，所以无法保证收敛。
集中式方法 —— Centralized approach
- 从所有智能体中学习一个单一策略。
- 输入为环境的当前状态和策略输出的联合动作。
- 奖励是全局的。
自我对弈—— Self-Play ：在自我对弈中，智能体将其之前的策略副本作为对手。这样，智能体将与一个相同水平的对手进行对战（具有一定挑战性但不过于困难），有机会逐渐改进其策略，并在自身提升时更新对手。这是一种逐步提升对手复杂性的方法。

innovation64 commented 1 year ago

第八单元 : PPO 基础 @innovation64

[术语]：

近端策略优化(PPO)算法—— Proximal Policy Optimization：一种通过回避大量策略更新来提升我们智能体训练的稳定性的架构
裁剪替代目标函数—— Clipped Surrogate Objective Function 是一种新的目标函数，用于约束策略变化在一个小范围内，使用剪辑。这个函数是为了消除新策略远离旧策略的动机，代替KL散度。
比率函数 —— The Ratio Function 是强化学习中的一个概念，它是一种用于计算策略梯度的方法。
Sample Factory 框架 —— Sample Factory 是一个快速的强化学习库，专注于非常高效的同步和异步策略梯度（PPO）实现。它经过了彻底的测试，被许多研究人员和实践者使用，并得到了积极的维护。
Doom —— Doom 是一款由 id Software 在 1993 年推出的第一人称射击游戏。这个系列的核心制作者是约翰·卡马克和约翰·罗梅洛。

innovation64 commented 1 year ago

补充单元 : 前沿相关信息 @innovation64

[术语]：

（自动）强化学习—— (Automatic) Curriculum Learning 是一种训练策略，模仿人类的学习过程，主张让模型先从容易的样本开始学习，逐渐增加难度，最终达到学习目标。课程学习可以加速机器学习模型的训练，在达到相同的模型性能条件下，课程学习可以加速训练，减少训练迭代步数。
决策 Transformer —— Decision Transformers
- 其主要思想是，不是使用强化学习方法训练策略，如拟合价值函数，告诉我们应该采取什么行动来最大化收益（累计奖励），而是使用序列建模算法（Transformer），根据所需的回报、过去的状态和行动，生成未来的行动以实现所需的回报。它是一个自回归模型，以所需的回报、过去的状态和行动为条件，生成未来的行动，以实现所需的回报。
Godot RL 智能体 —— Godot RL Agents ：是一个开源软件包，为视频游戏开发者、人工智能研究人员和爱好者提供了学习其非玩家角色（NPC）或智能体的复杂行为的机会。
语言模型（LM）—— 语言模型是针对某种语言建立的概率模型，目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。语言模型可以用于自然语言处理中的各种任务，例如机器翻译、语音识别、文本生成等等。
基于模型的强化学习 (MBRL) —— Model Based Reinforcement Learning ：MBRL 是一种强化学习的方法，它是一种基于模型的强化学习方法，可以在有限的尝试次数内快速学习控制策略，并使我们能够将专业领域知识集成到智能体中，以了解世界如何运作。
- 存在一个智能体在不断尝试解决问题，积累状态和动作数据。
- 利用这些数据，智能体创建一个结构化学习工具，即动态模型，用于推理世界的状态。
- 利用动态模型，智能体通过预测未来决定如何行动。
- 通过这些行动，智能体收集更多数据，改进模型，并希望改善未来的动作。
离线与在线强化学习 —— Offline vs. Online Reinforcement Learning
- Online Reinforcement Learning 一直有一个环境可以交互
- Offline Reinforcement Learning 只有一个有限的数据集，得从里面学到一个策略，然后直接部署，看结果。
基于人类反馈的强化学习 —— Reinforcement Learning from Human Feedback ：RLHF是一种将人类数据标签融入基于强化学习的优化过程的方法论。它的动机来自于对建模人类偏好的挑战。

EEvinci commented 1 year ago

第二单元：Q-Learning简介 @EEvinci

[术语]：

Q-learning：
- Q-learning是一种强化学习算法，它通过学习一个动作-价值函数（即Q函数），来确定在每个状态下应该采取哪个动作。在Q-learning中，智能体试图学习一个策略，使得总的奖励最大化。
Q-table：
- Q-table是一个表，它存储了强化学习智能体对每个状态-动作对的价值估计。表中的每一个条目就代表了在某一状态下采取某一动作的预期回报。
状态-价值函数—— The state-value function ：
- 对于每个状态，状态-价值函数是如果智能体从当前状态开始，遵循该策略直到结束时的期望回报。
动作-价值函数—— The action-value function ：
- 与状态-价值函数相比，动作-价值函数不仅考虑了状态，还考虑了在该状态下采取的动作，它计算了智能体在某个状态下执行某个动作后，根据策略所能获得的预期回报。之后智能体会一直遵循这个策略，以最大化回报。
Epsilon-greedy 策略 —— Epsilon-greedy strategy ：
- 常用的强化学习探索策略，涉及平衡探索和利用。
- 以 1-epsilon 的概率选择奖励最高的动作。
- 以 epsilon 的概率选择一个随机动作。
- Epsilon 通常随着时间减少，以偏向利用。
贪婪策略 —— Greedy strategy ：
- 涉及总是选择预期会导致最高奖励的动作，基于当前对环境的了解。（只有利用）
- 总是选择期望奖励最高的动作。
- 不包括任何探索。
- 在有不确定性或未知最优动作的环境中可能是不利的。
贝尔曼方程 —— The Bellman Equation ：
- 贝尔曼方程是描述状态值函数或动作值函数的递归关系。它表明一个状态（或状态-动作对）的值等于即时奖励加上下一状态（或下一状态-动作对）的折扣值的期望。
蒙特卡罗 —— Monte Carlo ：
- 蒙特卡罗方法是一种通过平均完整经验样本的返回（即经验序列中的总奖励）来估计价值函数的方法。蒙特卡罗方法只在一个完整的序列结束之后才进行更新。
时序差分学习 —— Temporal Difference Learning ：
- 时序差分学习结合了动态规划和蒙特卡罗方法的思想。在时序差分学习中，智能体不需要等待序列结束就可以更新其价值函数，只需要等待下一个时间步。
Frozen-Lake-v1(non-slippery and slippery version) ：
- FrozenLake是一种常见的强化学习环境，通常用于测试强化学习算法。在这个环境中，智能体需要在一个冰冻的湖面上移动，目标是从起点移动到目标点。
- 在non-slippery版本中，智能体的每个动作都会精确地按照预期的方式执行。
- 在slippery版本中，冰面是滑的，所以智能体的动作可能会导致预期之外的结果。
自动驾驶出租车 —— An autonomous taxi：
- 在强化学习环境中，自动驾驶出租车是一个经典的问题。在这个问题中，出租车是一个智能体，需要学习如何在城市环境中导航，从一个地方（称为点A）运送乘客到另一个地方（称为点B）。
- 具体来说，智能体的目标是找到一种策略，能在最少的步骤内完成任务。
- 自动驾驶出租车的问题模型包括了一个格子世界，其中每个格子代表一个可能的位置。出租车的任务包括寻找乘客，接乘客，然后把乘客送到目的地。出租车需要在这个过程中尽可能减少行驶的步数，因为每走一步都会收到一个负奖励（代表出租车消耗的燃料或者时间成本）。如果成功地将乘客送到目的地，出租车则会得到一个正奖励。

xiaodouzi666 commented 1 year ago

第六单元：Advantage Actor-Critic(A2C) 优势演员--评论员算法

[术语]：

偏差--方差权衡——Bias-variance tradeoff：

Bias-Variance Trade-off 是机器学习领域的非常核心与重要的基本理论。
优势函数——Advantage Functions：

深度强化学习涉及建立一个深度学习模型，该模型能够在输入特征和未来的折扣奖励值（也称为 Q 值）之间进行函数逼近。从所有的 q 值中，智能体需要选择最好的一个来获得最优路径。这可能很困难，因为 Q 函数是基于值的函数并且具有高可变性。为了减少这种可变性，我们可以使用 Advantage 函数。
优势演员--评论员算法——Advantage Actor-Critic：

演员-评论员算法是一种结合策略梯度和时序差分学习的强化学习方法，其中，演员是指策略函数，即学习一个策略以得到尽可能高的回报。评论员是指价值函数，对当前策略的值函数进行估计，即评估演员的好坏。借助于价值函数，演员-评论员算法可以进行单步参数更新，不需要等到回合结束才进行更新。在演员-评论员算法里面，最知名的算法就是异步优势演员-评论员算法。如果我们去掉异步，则为优势演员-评论员（advantage actor-critic，A2C）算法。