Closed kuto5046 closed 4 years ago
Silver, David et al. https://www.nature.com/articles/nature24270.epdf?author_access_token=VJXbVjaSHxFoctQQ4p2k4tRgN0jAjWel9jnR3ZoTv0PVW4gB86EEpGqTRDtpIz-2rmo8-KG06gqVobU5NSCFeHILHcVFUeMsbvwS-lxjqQGg98faovwjxeTUgZAUMnRQ
Alpha Goでは棋譜データを用いた教師あり学習と自己対戦を採用していたが、今回は自己対戦のみでAlpha Goに100対戦全勝。policy networkとvalue networkを統合しResidual層を加えたNNを、rolloutを除いたモンテカルロ木探索による強化学習で学習する。
Silver, David et al. https://www.nature.com/articles/nature24270.epdf?author_access_token=VJXbVjaSHxFoctQQ4p2k4tRgN0jAjWel9jnR3ZoTv0PVW4gB86EEpGqTRDtpIz-2rmo8-KG06gqVobU5NSCFeHILHcVFUeMsbvwS-lxjqQGg98faovwjxeTUgZAUMnRQ