junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)
MIT License
3.29k stars 964 forks source link

现有的两个8*8*5的model是经过多少次训练得来的? #53

Open nothingeasy opened 6 years ago

nothingeasy commented 6 years ago

就想知道 best_policy_8_8_5.model best_policy_8_8_5.model2 这两个的区别

junxiaosong commented 6 years ago

这两个model都是训练了3000~4000多局自我对局得到的,model2是后期代码稳定了一次性跑出来的,另一个没记错的话是在一个learning rate下跑了1000局,然后改了下learning rate,以1000局得到的model初始化又跑了3000局