Closed Subarashi2 closed 1 year ago
我们目的是找到一个最优的q函数,依据q函数可以得到一个最优的q函数,请问在这个过程中我们使用到了折扣回报这个东西了吗
后来想了想Q函数的定义就是折扣回报的期望。
是的,通过bootstrapping的更新方式。
我们目的是找到一个最优的q函数,依据q函数可以得到一个最优的q函数,请问在这个过程中我们使用到了折扣回报这个东西了吗