AlphaZeroは思考時間が長いと先手勝率が高い

今まで気づかなかったのですが、論文のFig 2をよく見ると AlphaZeroはelmoに対して思考時間が長いほど、先手での勝率が上がっています。

下はグラフから読み取ったAlphaZeroの対elmoの勝率です。グラフに合わせて、AlphaZeroが後手のとき、先手のとき、の勝と引き分けの値、そして先手と後手での勝率の差です。

思考時間が1/100の時は、先手と後手の差は+30 ELO、勝率で0.54程度の差で、これなら通常の将棋の勝率に近いです。しかし、思考時間を増やすごとに先手と後手の差は広がり、 same time(持時間3時間)では +390 ELO もの差になっています。

AlphaZeroは探索速度は4TPUで 58000回/秒なので持時間3時間の100分の1、108秒だと 1手1秒程度かと思います。elmoは 44 threadで 25100k /秒です。

現在のAobaZero(w1650)の勝率は

 1手  800 playout 対 elmoの1手   346k   勝率 87.9%  (先手勝率 89%、後手勝率 87%)
 1手 8000 playout 対 elmoの1手  3462k   勝率 78.9%  (先手勝率 81%、後手勝率 77%) 先手で宣言勝ちは95%の割合
 1手58000 playout 対 elmoの1手 25100k   勝率 計測中

まだ先手勝率が上がっていく気配はないです。 1手1秒の再現実験でも20日間かかり、持時間3時間で1000局の再現実験は3年ぐらいで厳しそうです。

AlphaZeroの対elmoでの思考時間を変えた時の勝率(グラフから読み取った数値)

     勝  引分  勝率    ELO   先手と後手の差(ELO)
1/100
  42.8%, 5.6% (45.6%   -31 )
  49.6%, 0.5% (49.9%    -1 )  +30
1/30
  68.0%  2.1% (69.1%  +140 )
  79.1%  0.9% (79.6%  +237 )  +97
1/10
  69.9%  2.8% (71.3%  +158 )
  91.2%  0  % (91.2%  +406 ) +248
1/3
  80.0%  1.6% (80.8%  +250 )
  95.2%  0.8% (95.6%  +535 ) +285
same time
  84.2%  2.2% (85.3%  +305 )
  98.2%  0  % (98.2%  +695 ) +390

20200911fig2b

A general reinforcement learning algorithm that masters chess,shogi,and Go through self-play https://science.sciencemag.org/content/sci/362/6419/1140.full.pdf

kobanium / aobazero

AlphaZeroは思考時間が長いと先手勝率が高い #36