李宏毅强化学习课程笔记 Sparse Reward

xiang578 / xiang578.github.io

基于 GitHub issues 的项目管理，持续行动，持续反思，持续进步，持续成长……

https://xiang578.com

4 stars 0 forks source link

李宏毅强化学习课程笔记 Sparse Reward | 算法花园 #182

Closed xiang578 closed 2 months ago

xiang578 commented 3 years ago

https://xiang578.com/post/reinforce-learnning-basic-sparse-reward.html

我的笔记汇总： Policy Gradient、PPO: Proximal Policy Optimization、Q-Learning Actor Critic Sparse Reward Imitation Learning Reward Shaping 如果 reward 分布非常稀疏的时候，actor 会很难学习，所以刻意设计 reward 引导模型学习。 Curiosity Intr