现有的两个8*8*5的model是经过多少次训练得来的？

junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)

MIT License

3.29k stars 964 forks source link

Open nothingeasy opened 6 years ago

nothingeasy commented 6 years ago

就想知道 best_policy_8_8_5.model best_policy_8_8_5.model2 这两个的区别

junxiaosong commented 6 years ago

这两个model都是训练了3000～4000多局自我对局得到的，model2是后期代码稳定了一次性跑出来的，另一个没记错的话是在一个learning rate下跑了1000局，然后改了下learning rate，以1000局得到的model初始化又跑了3000局