请问你有遇过reward爆炸的情况吗？

pochih / RL-Chatbot

🤖 Deep Reinforcement Learning Chatbot

MIT License

418 stars 140 forks source link

Open Tangzy7 opened 6 years ago

Tangzy7 commented 6 years ago

我只用了 Ease of answering 作为reward，但是随着训练这一项从-2.x开始一直减小到负无穷。我没有用sigmoid，但是也很奇怪，因为原作者也没有加sigmoid。

pochih commented 6 years ago

我是用 papaer reward 的第一和第三項，不會爆掉