PPO x Family 决策智能入门公开课

欢迎来到 PPO x Family 系列决策智能入门公开课。该系列将深入理解深度强化学习算法 PPO ，灵活运用一个 PPO 算法解决几乎所有常见的决策智能应用 ，帮助一切对于深度强化学习技术有好奇心的人，轻便且高效地制作应用原型，了解和学习最强大最易用的 PPO Family 。

P.S. 路过记得点个 star ，2022年12月起持续更新中~

News

2023.06.07: PPO x Family 第八章（突破智能体终极界限）及课程大作业将在十月下旬正式上线
2023.06.01: [bilibili] PPO x Family 第七章（挖掘黑科技）正式上线
2023.04.06: [bilibili] PPO x Family 第六章（统筹多智能体）正式上线
2023.03.09: [bilibili] PPO x Family 第五章（探索时序建模）正式上线
2023.02.23: [bilibili] PPO x Family 第四章（解密稀疏奖励空间）正式上线
2023.01.16: [bilibili] PPO x Family 第三章（表征多模态观察空间）正式上线
2022.12.23: [bilibili] PPO x Family 第二章（解构复杂动作空间）正式上线
2022.12.23: PPO x Family ”算法-代码“ 注解文档网站上线传送门
2022.12.08: [bilibili] PPO x Family 第一章（开启决策AI探索之旅）正式上线
2022.12.06: [bilibili] PPO x Family 第一章微课视频：4分钟带你快速入门强化学习的万能钥匙
2022.12.05: [PaperWeekly] 给你一个 PPO × Family 课程，撑起整个决策 AI 宇宙
2022.12.01: [bilibili] PPO x Family 课程品牌宣传视频
2022.11.30: [机器之心] 集中一点，演化无限：PPO × Family决策智能入门公开课即日开讲
2022.11.30: [中国计算机学会CCF] 【CCF科普群星计划】决策智能入门公开课开课啦

课程大纲

内容导航

章节（视频课）	算法理论资料	补充资料	习题	代码样例	应用样例
第一章：开启决策AI探索之旅	课程PPT 课程文字稿	微课视频策略梯度 A2C TRPO 符号表 QA总结	习题习题题解	PG算法示例 A2C算法示例 PPO算法示例	应用混剪
第二章：解构复杂动作空间	课程PPT 课程文字稿	重参数化 PPO&DDPG HyAR QA总结	习题习题题解	离散动作示例连续动作示例混合动作示例应用训练代码	火箭回收等
第三章：表征多模态动作空间	课程PPT 课程文字稿	表征学习 PPG 不变性 QA总结	习题习题题解	编码方法示例 Wrapper示例计算图示例应用训练代码	软体机器人等
第四章：解密稀疏奖励空间	课程PPT 课程文字稿	逆强化学习行为克隆BC QA总结	习题习题题解	ICM好奇心奖励 RND好奇心奖励 Pop-Art示例价值缩放应用训练代码	自动驾驶等
第五章：探索时序建模	课程PPT	随机性策略 RWKV Belief MDP QA总结	习题习题题解	LSTM示例 GTrXL示例应用训练代码	记忆型决策
第六章：统筹多智能体	课程PPT	HAPPO ACE 值分解 QA总结	习题习题题解	IndependentPG MAPG MAPPO [HAPPO] 应用训练代码	多智能体协作
第七章：挖掘黑科技	课程PPT	Adv 估计 PPO off 版 Entropy QA总结	习题习题题解	GAE Recompute 梯度裁剪正交初始化 Dual Clip Value Clip 应用训练代码	学术基准环境
第八章：突破终极界限		LLM RLHF		语言模型 RL 环境

课程特点

一个算法解决万千应用视频传送门

算法理论和代码实现一一对应网站传送门

项目结构

.
├── LICENSE
├── assets                       --> 相关图片素材（转载请注明来源）
├── chapter2_action              --> 课程第二章相关内容
└── chapter1_overview            --> 课程第一章相关内容
    ├── chapter1_manuscript.pdf  --> 课程第一章文字稿（对于PPT的补充说明）
    ├── chapter1_lecture.pdf     --> 课程第一章PPT
    ├── chapter1_qa.pdf          --> 课程第一章答疑文稿
    ├── chapter1_homework.pdf    --> 课程第一章习题作业
    ├── chapter1_hw_solution.pdf   --> 课程第一章习题作业题解
    ├── chapter1_supp_trpo.pdf          --> 课程第一章补充材料（算法理论推导等）
    └── chapter1_demo_code.py    --> 课程第一章相关代码实现

课程答疑和反馈

常见问题FAQ：传送门
小助手微信号：ding314assist
Slack：OpenDILab
GitHub Issue区：链接
B站账号：OpenDILab
知乎账号：DILab决策实验室
Youtube：OpenDILab
邮箱：opendilab@pjlab.org.cn

License

PPOxFamily is released under the Apache 2.0 license.

opendilab / PPOxFamily

readme

PPO x Family 决策智能入门公开课

News

课程大纲

内容导航

课程特点

一个算法解决万千应用视频传送门

算法理论和代码实现一一对应网站传送门

项目结构

课程答疑和反馈

License

opendilab / PPOxFamily

readme

PPO x Family 决策智能入门公开课

News

课程大纲

内容导航

课程特点

一个算法解决万千应用 视频传送门

算法理论和代码实现一一对应 网站传送门

项目结构

课程答疑和反馈

License

一个算法解决万千应用视频传送门

算法理论和代码实现一一对应网站传送门