kuto5046 / papers

読んだ論文を整理するところ
0 stars 0 forks source link

Mastering the game of Go without human knowledge #11

Closed kuto5046 closed 4 years ago

kuto5046 commented 4 years ago

Silver, David et al. https://www.nature.com/articles/nature24270.epdf?author_access_token=VJXbVjaSHxFoctQQ4p2k4tRgN0jAjWel9jnR3ZoTv0PVW4gB86EEpGqTRDtpIz-2rmo8-KG06gqVobU5NSCFeHILHcVFUeMsbvwS-lxjqQGg98faovwjxeTUgZAUMnRQ

kuto5046 commented 4 years ago

Alpha Goでは棋譜データを用いた教師あり学習と自己対戦を採用していたが、今回は自己対戦のみでAlpha Goに100対戦全勝。policy networkとvalue networkを統合しResidual層を加えたNNを、rolloutを除いたモンテカルロ木探索による強化学習で学習する。 IMG_E5B1EFEBEDA6-1 IMG_D2BE2FF6C7D3-1 IMG_C42595B457DC-1