欢迎来到 PPO x Family 系列决策智能入门公开课。该系列将深入理解深度强化学习算法 PPO ,灵活运用一个 PPO 算法解决几乎所有常见的决策智能应用 ,帮助一切对于深度强化学习技术有好奇心的人,轻便且高效地制作应用原型,了解和学习最强大最易用的 PPO Family 。
P.S. 路过记得点个 star ,2022年12月起持续更新中~
章节(视频课) | 算法理论资料 | 补充资料 | 习题 | 代码样例 | 应用样例 |
---|---|---|---|---|---|
第一章:开启决策AI探索之旅 | 课程PPT 课程文字稿 |
微课视频 策略梯度 A2C TRPO 符号表 QA总结 |
习题 习题题解 |
PG算法示例 A2C算法示例 PPO算法示例 |
应用混剪 |
第二章:解构复杂动作空间 | 课程PPT 课程文字稿 |
重参数化 PPO&DDPG HyAR QA总结 |
习题 习题题解 |
离散动作示例 连续动作示例 混合动作示例 应用训练代码 |
火箭回收等 |
第三章:表征多模态动作空间 | 课程PPT 课程文字稿 |
表征学习 PPG 不变性 QA总结 |
习题 习题题解 |
编码方法示例 Wrapper示例 计算图示例 应用训练代码 |
软体机器人等 |
第四章:解密稀疏奖励空间 | 课程PPT 课程文字稿 |
逆强化学习 行为克隆BC QA总结 |
习题 习题题解 |
ICM好奇心奖励 RND好奇心奖励 Pop-Art示例 价值缩放 应用训练代码 |
自动驾驶等 |
第五章:探索时序建模 | 课程PPT | 随机性策略 RWKV Belief MDP QA总结 |
习题 习题题解 |
LSTM示例 GTrXL示例 应用训练代码 |
记忆型决策 |
第六章:统筹多智能体 | 课程PPT | HAPPO ACE 值分解 QA总结 |
习题 习题题解 |
IndependentPG MAPG MAPPO [HAPPO] 应用训练代码 |
多智能体协作 |
第七章:挖掘黑科技 | 课程PPT | Adv 估计 PPO off 版 Entropy QA总结 |
习题 习题题解 |
GAE Recompute 梯度裁剪 正交初始化 Dual Clip Value Clip 应用训练代码 |
学术基准环境 |
第八章:突破终极界限 | LLM RLHF | 语言模型 RL 环境 |
.
├── LICENSE
├── assets --> 相关图片素材(转载请注明来源)
├── chapter2_action --> 课程第二章相关内容
└── chapter1_overview --> 课程第一章相关内容
├── chapter1_manuscript.pdf --> 课程第一章文字稿(对于PPT的补充说明)
├── chapter1_lecture.pdf --> 课程第一章PPT
├── chapter1_qa.pdf --> 课程第一章答疑文稿
├── chapter1_homework.pdf --> 课程第一章习题作业
├── chapter1_hw_solution.pdf --> 课程第一章习题作业题解
├── chapter1_supp_trpo.pdf --> 课程第一章补充材料(算法理论推导等)
└── chapter1_demo_code.py --> 课程第一章相关代码实现
PPOxFamily is released under the Apache 2.0 license.