如果强化学习中的每轮只有一个状态输入，即初始状态，算法是否能根据不同的状态得到不同状态下最优的动作？

PaddlePaddle / PARL

A high-performance distributed training framework for Reinforcement Learning

https://parl.readthedocs.io/

Apache License 2.0

3.24k stars 819 forks source link

Closed styledyy closed 2 years ago

styledyy commented 2 years ago

每轮只有一个步骤，即每轮只有一个动作At，没有At+1，不像其他的问题有多个步骤，产生多个动作，并且有多种不同的初始状态轮流输入，请问在这种情况下，比如说DQN、SAC算法是否能根据不同的初始状态得到不同初始状态下最优的动作？

TomorrowIsAnOtherDay commented 2 years ago

本issue栏目只讨论框架使用问题，不提供强化学习算法答疑：）