PaddlePaddle / PARL

A high-performance distributed training framework for Reinforcement Learning
https://parl.readthedocs.io/
Apache License 2.0
3.24k stars 819 forks source link

请问强化学习算法的初始状态都是固定的吗? #913

Closed styledyy closed 2 years ago

TomorrowIsAnOtherDay commented 2 years ago

没有这个限定的,可以是随机初始化的状态。

styledyy commented 2 years ago

我用DQN算法和SAC算法,用不同初始状态的轮流进行输入,但输出的动作都是一样的(这些动作不全是最优的动作),(1)请问这是为什么?(2)不应该不同的输入状态就能获得对应的最优的输出动作吗?(3)难道是网络最终只会给一个它认为的最优策略动作吗?

TomorrowIsAnOtherDay commented 2 years ago

输出的动作都是一样的(

这个问题可以参考下之前的issue #462 ,属于模型调优的问题。

styledyy commented 2 years ago

好的谢谢