Closed kuto5046 closed 4 years ago
Silver, David, Huang, Aja, Maddison, Chris J, Guez, Arthur, Sifre, Laurent, Van Den Driessche, George, Schrittwieser, Julian, Antonoglou, Ioannis, Panneershelvam, Veda https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf
コンピュータによって世界で初めて人間のプロ棋士に勝利。手を評価するpolicy network、盤面を評価するvalue networkを、CNN教師あり学習、強化学習、モンテカルロ木探索を組み合わせ学習。教師あり学習には過去の棋譜データ、強化学習にはself-playを使用。
Silver, David, Huang, Aja, Maddison, Chris J, Guez, Arthur, Sifre, Laurent, Van Den Driessche, George, Schrittwieser, Julian, Antonoglou, Ioannis, Panneershelvam, Veda https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf