sarsaをつくる - Githubissues

e-jigsaw / cliff-walk

cliff-walk by reinforcement learning

1 stars 0 forks source link

Closed e-jigsaw closed 11 years ago

e-jigsaw commented 11 years ago

方策piは確率分布

Q(s,a}の値をもとに、piを生成する e^(Q(s,a))にしてそれを確率分布とする合計が1になればok

e-jigsaw commented 11 years ago

ips-greedyがpolicyだった