PaddlePaddle / PARL

A high-performance distributed training framework for Reinforcement Learning
https://parl.readthedocs.io/
Apache License 2.0
3.22k stars 816 forks source link

请问sarsa在更新Q值的时候,环境还在St,能计算出Q(St+1,at+1)吗? #956

Open leshui1991 opened 1 year ago

leshui1991 commented 1 year ago

image 请问应用这个的时候,环境的状态应该已经是St+1了吧。 有没有可能环境还在St,但是能计算出Q(St+1,at+1)呢?