PaddlePaddle / PARL

A high-performance distributed training framework for Reinforcement Learning
https://parl.readthedocs.io/
Apache License 2.0
3.24k stars 819 forks source link

如果强化学习中的每轮只有一个状态输入,即初始状态,算法是否能根据不同的状态得到不同状态下最优的动作? #916

Closed styledyy closed 2 years ago

styledyy commented 2 years ago

每轮只有一个步骤,即每轮只有一个动作At,没有At+1,不像其他的问题有多个步骤,产生多个动作,并且有多种不同的初始状态轮流输入,请问在这种情况下,比如说DQN、SAC算法是否能根据不同的初始状态得到不同初始状态下最优的动作?

TomorrowIsAnOtherDay commented 2 years ago

本issue栏目只讨论框架使用问题,不提供强化学习算法答疑:)