kobanium / aobazero

Aoba Zero
Other
54 stars 8 forks source link

現在のAobaZeroの対elmoの勝率 #49

Open yssaya opened 3 years ago

yssaya commented 3 years ago

論文に近い条件でelmo(WCSC27)対戦させた結果が下です。

AlphaZeroはelmoに対して

勝率91.2%(+410)(先手番だと98.2%(+695)、後手で84.2%(+291))  持時間3時間15秒。1手3分?

AobaZeroはelmoに対して

勝率73.8%(+179)(先手番だと78.3%(+223)、後手で69.1%(+140))  1手10秒相当

ですので、+231 ほどまだ差があります。 w1650 と少し古いweightの結果で最新は +40 ほど強いので差は +191 ほどかもしれません。

先手番の差は +472(695 - 223)
後手番の差は +151(291 - 140)

と、先手番での差が大きいです。 気になる要因としてはAlphaZeroは思考時間が長いほど先手勝率が高く、 1手10秒相当のAobaZeroもその傾向が出ています。1手3分相当で今の20倍ほど 時間をかければレート差は小さくなるのかもしれません。

AlphaZeroは思考時間が長いと先手勝率が高い https://github.com/kobanium/aobazero/issues/36

AobaZero vs elmo(WCSC27) (AlphaZeroの論文の1手10秒相当)

全体勝率 0.738 (86勝5分29敗)           +179 Elo
先手勝率 0.783 (46勝2分12敗) 宣言45勝  +223 Elo  (後手との差 +83 Elo)
後手勝率 0.691 (40勝3分17敗) 宣言25勝  +140 Elo

AobaZero,    w1650, 580000 playout/手, 最初の30手までは勝率2%以下ならSoftmaxで選択。
elmo(WCSC27)        251000k       /手, 6 threads, HASH 8GB, elmo付属の定跡使用

この120局で、2080Tiの学習の空き時間を使って2か月半かかってます。