pochih / RL-Chatbot

🤖 Deep Reinforcement Learning Chatbot
MIT License
418 stars 140 forks source link

请问你有遇过reward爆炸的情况吗? #13

Open Tangzy7 opened 6 years ago

Tangzy7 commented 6 years ago

我只用了 Ease of answering 作为reward,但是随着训练这一项从-2.x开始一直减小到负无穷。 我没有用sigmoid,但是也很奇怪,因为原作者也没有加sigmoid。

pochih commented 6 years ago

我是用 papaer reward 的第一和第三項,不會爆掉