请问强化学习算法的初始状态都是固定的吗？

PaddlePaddle / PARL

A high-performance distributed training framework for Reinforcement Learning

https://parl.readthedocs.io/

Apache License 2.0

3.24k stars 819 forks source link

Closed styledyy closed 2 years ago

TomorrowIsAnOtherDay commented 2 years ago

没有这个限定的，可以是随机初始化的状态。

styledyy commented 2 years ago

我用DQN算法和SAC算法，用不同初始状态的轮流进行输入，但输出的动作都是一样的（这些动作不全是最优的动作），（1）请问这是为什么？（2）不应该不同的输入状态就能获得对应的最优的输出动作吗？（3）难道是网络最终只会给一个它认为的最优策略动作吗？

TomorrowIsAnOtherDay commented 2 years ago

输出的动作都是一样的（

这个问题可以参考下之前的issue #462 ，属于模型调优的问题。

styledyy commented 2 years ago

好的谢谢