Closed e-jigsaw closed 11 years ago
方策piは確率分布
Q(s,a}の値をもとに、piを生成する e^(Q(s,a))にしてそれを確率分布とする 合計が1になればok
ips-greedyがpolicyだった
方策piは確率分布
Q(s,a}の値をもとに、piを生成する e^(Q(s,a))にしてそれを確率分布とする 合計が1になればok