Open Tangzy7 opened 6 years ago
我只用了 Ease of answering 作为reward,但是随着训练这一项从-2.x开始一直减小到负无穷。 我没有用sigmoid,但是也很奇怪,因为原作者也没有加sigmoid。
我是用 papaer reward 的第一和第三項,不會爆掉
我只用了 Ease of answering 作为reward,但是随着训练这一项从-2.x开始一直减小到负无穷。 我没有用sigmoid,但是也很奇怪,因为原作者也没有加sigmoid。