kuto5046 / papers

読んだ論文を整理するところ
0 stars 0 forks source link

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model #13

Closed kuto5046 closed 4 years ago

kuto5046 commented 4 years ago

Schrittwieser, Julian et al. http://arxiv.org/abs/1911.08265

kuto5046 commented 4 years ago

モデルベースの強化学習を用いて、囲碁・チェス・将棋でAlphaZeroを上回り、かつ従来は苦手としていたAtariでも最高性能を獲得。画面状態を潜在変数とする表現関数、報酬と状態遷移を得るダイナミクス関数、状態と行動の価値を得る予測関数の3つで構成。 IMG_0284F51BE0F0-1 IMG_3348E96E20DE-1 IMG_919FFA70088B-1