你是否已经阅读并同意《Datawhale开源项目指南》？

[X] 我已阅读并同意《Datawhale开源项目指南》

你是否已经阅读并同意《Datawhale开源项目行为准则》？

[X] 我已阅读并同意《Datawhale开源项目行为准则》

项目简介

强化学习reinforcement learning，RL）及其与深度学习的结合目前在交通、机器人、量化交易等领域的应用比较火热，市面上已经有很多强化学习相关教程，但是存在一些通用的问题：一是教程比较学术，面对初学者过于晦涩；二是目前强化学习的算法缺少一个统一的框架，学习成本很高。大部分是底层是基于pytorch或paddlepaddle，手动实现相关算法，少量是基于ray RLlib等强化学习框架实现。代码一是封装程度不高，二是没有后续维护，读者在学习的的时候不仅要关注算法，还要花费大量精力在代码实现上，十分不友好。

为解决以上问题，特计划在torchRL的框架内编写深度学习教程，主要内容包括：一是简要介绍深度学习基本知识与torchRL的简介与安装；二是介绍torchRL各模块主要功能，包括环境（env）、神经网络模块（Networks）、策略（Probabilistic policies）、智能体（Q-Value actors）等；三是对深度学习算法进行假设并通过torchRL的框架实现。

立项理由

torchRL是PyTorch团队出品的深度学习模块，目前已经0.4版本了，口碑好前景广，torchRL在强化学习中有可能达到PyTorch在深度学习中的高度，但是目前中文互联网还没有系统介绍的学习资料。本项目可以为深度学习的爱好者和初学者提供torchRL深度学习框架的入门实践，降低代码编写难度。

项目受众

对深度学习感兴趣，想要入门深度学习的读者。

项目亮点

torchRL深度学习框架的学习资料较少，本项目可以填补一项空白。

结构和内容上会参考PyTorch 实用教程（第二版），蘑菇书EasyRL

项目规划

强化学习概述
- 强化学习基本概念
- 马尔科夫决策过程
- 强化学习算法的组成部分和类型
- 强化学习的应用场景
torchRL基本介绍
- torchRL简介与安装
- torchRL主要模块
表格性方法
- sarsa算法
- sarsa算法基于torchRL的实现
- Q-learning算法
- Q-learning算法基于torchRL的实现
策略梯度算法
- 策略梯度算法
- 策略梯度算法基于torchRL的实现
近端策略优化
- 近端策略优化算法
- 近端策略优化算法基于torchRL的实现
DQN算法
- DQN算法
- DQN算法算法基于torchRL的实现
DDPG算法
- DDPG算法
- DDPG算法基于torchRL的实现
强化学习在量化交易中的应用
- 待进一步补充
其他强化学习框架介绍
- ray RLlib
- tradeMaster
- FinRL
- 待补充

各章节负责人

目前只有我一个，后续需联系其他小伙伴协助

完成日期

强化学习在量化交易方面的应用是我目前研究生阶段主要研究的内容，目前基本算法都有实现，但是缺少整理并迁移到torchRL的框架，前期研究框架的梳理也就是前面目录部分的内容预计2025年5月基本完成。

预见的困难

可能缺少时间，另外torchRL的框架也在不断更新。我一个人可能很难follow，希望能不断有小伙伴加入进来，这也是我申请Datawhale开源项目的原因。希望能为公共领域的知识做出自己的一点贡献。

项目负责人

张益川，GitHub 主页，联系方式：yczhang2014@163.com

备注：发起立项申请后DOPMC成员将会在7天内给出审核意见，若7天内无反对意见则默认立项通过~

[X] 我已知悉上述备注

datawhalechina / DOPMC

torchrl-tutorial #248