Chapter3 Discussion - Githubissues

PaParaZz1 commented 1 year ago

本 issue 将会追踪和记录各种有关课程第三讲的问题和思考，欢迎有兴趣的同学在这个 issue 中评论，课程组会定期整理信息。

最新的第三讲 QA 合集文档（2023.02.20更新）

jianzuo commented 1 year ago

您好，我有个关于观测空间设计问题想请教下。在我的问题中observation 有两个量（a, b）, float a 对应一个衰退水平（考虑为连续的），b对应age(考虑为离散的). 然后我的action其实很简单，就离散0, 1 各自对应相应动作。请问这种问题应该就是直接把a, b作为神经网络输入进行策略学习？由于我的问题物理意义比较明确，我知道我的策略形式。我尝试了DQN, PPO弄了很久都没能得到较好的收敛策略。感觉我的动作空间很简单，按道理应该很好学习给出策略。请问您对这个问题设计有相关建议吗？谢谢！

PaParaZz1 commented 1 year ago

您好，我有个关于观测空间设计问题想请教下。在我的问题中observation 有两个量（a, b）, float a 对应一个衰退水平（考虑为连续的），b对应age(考虑为离散的). 然后我的action其实很简单，就离散0, 1 各自对应相应动作。请问这种问题应该就是直接把a, b作为神经网络输入进行策略学习？由于我的问题物理意义比较明确，我知道我的策略形式。我尝试了DQN, PPO弄了很久都没能得到较好的收敛策略。感觉我的动作空间很简单，按道理应该很好学习给出策略。请问您对这个问题设计有相关建议吗？谢谢！

连续变量的取值分布是什么，可以检查是否做了归一化
离散变量如果是年龄（整数数值，那其实也需要归一化
如果观察变量不需要考虑特别细粒度的情形，那可以按照分布划分成多个级别，在哪个级别就变成对应的one-hot，从而简化
这样简单的观察变量，神经网络不要太复杂，过于复杂会难以优化
其他影响收敛的因素也很多，可以贴一些训练曲线相关的信息方便后续讨论

xfl11 commented 1 year ago

191955286-7c309e9d-6e35-491f-93b3-b14cd1fe033f (1) 请问一下在羊了个羊的encoder过程中，经过MLP表征学习的全局信息（a1,a2)和经过transformer表征学习的牌面信息(b1, b2, b3)，是简单的连接起来(a1,a2, b1, b2, b3)，就送进actor-critic模型了吗？

opendilab / PPOxFamily

Chapter3 Discussion #43