Closed kuto5046 closed 4 years ago
Schrittwieser, Julian et al. http://arxiv.org/abs/1911.08265
モデルベースの強化学習を用いて、囲碁・チェス・将棋でAlphaZeroを上回り、かつ従来は苦手としていたAtariでも最高性能を獲得。画面状態を潜在変数とする表現関数、報酬と状態遷移を得るダイナミクス関数、状態と行動の価値を得る予測関数の3つで構成。
Schrittwieser, Julian et al. http://arxiv.org/abs/1911.08265