PaddlePaddle / MetaGym

Collection of Reinforcement Learning / Meta Reinforcement Learning Environments.
Apache License 2.0
275 stars 59 forks source link

'velocity_control' 的reward规则是什么 #28

Closed Ryan906k9 closed 4 years ago

Ryan906k9 commented 4 years ago

'velocity_control' 的reward规则是什么

TomorrowIsAnOtherDay commented 4 years ago

https://github.com/PaddlePaddle/RLSchool/blob/d4fdae4c875638a0ca7018b70fd1ce0ac35938ca/rlschool/quadrotor/env.py#L152 请参考这里的代码。

Ryan906k9 commented 4 years ago

是否有文档说明任务的目标和奖励方式呢?

WorldEditors commented 4 years ago

https://github.com/PaddlePaddle/RLSchool/blob/d4fdae4c875638a0ca7018b70fd1ce0ac35938ca/rlschool/quadrotor/env.py#L214

奖励共由3部分组成 Healthy reward: 飞机在没有坠毁情况下会维持一个奖励 Power Loss:飞机使用能量的惩罚 Task Reward: 每个任务独特奖励,对于velocity control任务,是目标速度和实际速度的差值

Ryan906k9 commented 4 years ago

https://github.com/PaddlePaddle/RLSchool/blob/d4fdae4c875638a0ca7018b70fd1ce0ac35938ca/rlschool/quadrotor/env.py#L214

奖励共由3部分组成 Healthy reward: 飞机在没有坠毁情况下会维持一个奖励 Power Loss:飞机使用能量的惩罚 Task Reward: 每个任务独特奖励,对于velocity control任务,是目标速度和实际速度的差值

我可否这么理解: velocity control任务中,开始会随机生成一个飞行器的位置和速度,而任务目标是在保持飞机不坠毁的前提下,用最小的能量损耗,最短的时间,把飞机的速度调整到目标速度?

WorldEditors commented 4 years ago

是的,需要尽快把飞机的速度调整到目标速度,并且持续跟随