e-jigsaw / cliff-walk

cliff-walk by reinforcement learning
1 stars 0 forks source link

sarsaをつくる #2

Closed e-jigsaw closed 11 years ago

e-jigsaw commented 11 years ago

方策piは確率分布

Q(s,a}の値をもとに、piを生成する e^(Q(s,a))にしてそれを確率分布とする 合計が1になればok

e-jigsaw commented 11 years ago

ips-greedyがpolicyだった