opendilab / PPOxFamily

PPO x Family DRL Tutorial Course(决策智能入门级公开课:8节课帮你盘清算法理论,理顺代码逻辑,玩转决策AI应用实践 )
https://opendilab.github.io/PPOxFamily/
Apache License 2.0
1.89k stars 169 forks source link

Chapter3 Discussion #43

Open PaParaZz1 opened 1 year ago

PaParaZz1 commented 1 year ago

本 issue 将会追踪和记录各种有关课程第三讲的问题和思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息。

最新的 第三讲 QA 合集文档(2023.02.20更新)

jianzuo commented 1 year ago

您好, 我有个关于观测空间设计问题想请教下。 在我的问题中observation 有两个量(a, b), float a 对应一个衰退水平(考虑为连续的),b对应age(考虑为离散的). 然后我的action其实很简单,就离散0, 1 各自对应相应动作。 请问这种问题应该就是直接把a, b作为神经网络输入进行策略学习? 由于我的问题物理意义比较明确,我知道我的策略形式。我尝试了DQN, PPO弄了很久都没能得到 较好的收敛策略。感觉我的动作空间很简单,按道理应该很好学习给出策略。请问您对 这个问题设计有相关建议吗? 谢谢!

PaParaZz1 commented 1 year ago

您好, 我有个关于观测空间设计问题想请教下。 在我的问题中observation 有两个量(a, b), float a 对应一个衰退水平(考虑为连续的),b对应age(考虑为离散的). 然后我的action其实很简单,就离散0, 1 各自对应相应动作。 请问这种问题应该就是直接把a, b作为神经网络输入进行策略学习? 由于我的问题物理意义比较明确,我知道我的策略形式。我尝试了DQN, PPO弄了很久都没能得到 较好的收敛策略。感觉我的动作空间很简单,按道理应该很好学习给出策略。请问您对 这个问题设计有相关建议吗? 谢谢!

xfl11 commented 1 year ago

191955286-7c309e9d-6e35-491f-93b3-b14cd1fe033f (1) 请问一下在羊了个羊的encoder过程中,经过MLP表征学习的全局信息(a1,a2)和经过transformer表征学习的牌面信息(b1, b2, b3),是简单的连接起来(a1,a2, b1, b2, b3),就送进actor-critic模型了吗?