Open initial-h opened 5 years ago
按照我的个人理解,对于探索程度的控制本身就是一个需要根据实际情况进行调整的超参数,没有太多的理论支持与保证,主要还是看实际实验跑的情况进行调整。直观上看的话,这里的实现方式相对于论文中的,探索程度更大一些。
还有一个不理解的地方是,为什么在走子的时候添加了噪声,而网络在拟合概率分布的时候拟合的是不带噪声的概率。这里论文里也挺模糊的,很好奇论文里是怎么做的,特别是30步之后,tau取无穷小再加上狄利克雷噪声的时候,拟合的概率是tau=1的概率分布还是tau取无穷小再加上狄利克雷噪声的分布?
alphazero的原文里写的前30步走子设置tau=1,即按照概率随机选取动作。之后设置tau趋于0,再采用概率加上狄利克雷噪声的方式选取动作。 这里的实现好像是tau=1,再加上狄利克雷噪声。 这两种方法有理论上或者直觉上的差异吗?