yuecideng / Ur5_DRL

This is a project about robotic manipulation motion planning using deep reinforcement learning based on ROS and Gazebo simulation
69 stars 19 forks source link

哥,您好,有这方面的相关教程推荐吗~ #1

Closed Water2style closed 2 years ago

Water2style commented 5 years ago

也准备学习学习 路径/动作 规划 和强化学习相结合的东西

yuecideng commented 5 years ago

也准备学习学习 路径/动作 规划 和强化学习相结合的东西 不好意思,才看见。。。 我有部分思路是从 https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/ 这里参考的,莫凡的小教程是不错的入门。 但还是要具体做项目解决问题才能有更深刻的体会

Water2style commented 5 years ago

也准备学习学习 路径/动作 规划 和强化学习相结合的东西 不好意思,才看见。。。 我有部分思路是从 https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/ 这里参考的,莫凡的小教程是不错的入门。 但还是要具体做项目解决问题才能有更深刻的体会

好的谢谢老哥

MLZG commented 5 years ago

大神您好,看了你的实现我觉得受益匪浅,有几个问题想请教您。一个是DDPG的actor以及critic的两个神经网络结构的设计思路问题;另一个问题就是我读您的代码,reward的值与 当前位姿和目标位姿的差异 有关,但是没有读到避障的影响,请问可不可以利用ros的API用某种方法使agent同样学习到避障的功能。

yuecideng commented 5 years ago

也准备学习学习 路径/动作 规划 和强化学习相结合的东西

大神您好,看了你的实现我觉得受益匪浅,有几个问题想请教您。一个是DDPG的actor以及critic的两个神经网络结构的设计思路问题;另一个问题就是我读您的代码,reward的值与 当前位姿和目标位姿的差异 有关,但是没有读到避障的影响,请问可不可以利用ros的API用某种方法使agent同样学习到避障的功能。

你好, 首先DDPG的网络结构基本是采用原论文的实现,原文链接 https://arxiv.org/abs/1509.02971。设计思路其实就是设计一个非线性的函数映射,如果想更改的话,可以从1. 单层神经元个数,2. 网络层数 和3. 激活函数下手。基本上如果环境简单(state,action关系明显),可以用简单的网络。复杂的环境可以用复杂的网络。(最好还是需要通过实验来验证收敛性)。

想让agent避障的话(动态障碍),需要有传感器提供障碍物的信息(如摄像头)加入state作为输入。静态障碍简单点,可以不需要提供障碍物信息,但需要提供agent和障碍物碰撞的反馈信号。(Gazebo里有contact sensor 可以实现,可以先在仿真环境里训练然后用在实物上。实物的话还是需要找到合适的传感器来检测agent的碰撞情况)。

希望对你有帮助。(TD3_vision.py, 和 env2.py 这两个文件有用摄像头作为输入,学习动态避障的实现)

MLZG commented 5 years ago

也准备学习学习 路径/动作 规划 和强化学习相结合的东西

大神您好,看了你的实现我觉得受益匪浅,有几个问题想请教您。一个是DDPG的actor以及critic的两个神经网络结构的设计思路问题;另一个问题就是我读您的代码,reward的值与 当前位姿和目标位姿的差异 有关,但是没有读到避障的影响,请问可不可以利用ros的API用某种方法使agent同样学习到避障的功能。

你好, 首先DDPG的网络结构基本是采用原论文的实现,原文链接 https://arxiv.org/abs/1509.02971。设计思路其实就是设计一个非线性的函数映射,如果想更改的话,可以从1. 单层神经元个数,2. 网络层数 和3. 激活函数下手。基本上如果环境简单(state,action关系明显),可以用简单的网络。复杂的环境可以用复杂的网络。(最好还是需要通过实验来验证收敛性)。

想让agent避障的话(动态障碍),需要有传感器提供障碍物的信息(如摄像头)加入state作为输入。静态障碍简单点,可以不需要提供障碍物信息,但需要提供agent和障碍物碰撞的反馈信号。(Gazebo里有contact sensor 可以实现,可以先在仿真环境里训练然后用在实物上。实物的话还是需要找到合适的传感器来检测agent的碰撞情况)。

希望对你有帮助。(TD3_vision.py, 和 env2.py 这两个文件有用摄像头作为输入,学习动态避障的实现)

谢谢您的解答!目前我在做静态的避障,未来会继续在动态障碍上进行探索,您的解答对我很有帮助。之前我对moveit有了一些了解,我可以使用moveit中的API去做碰撞检测然后把碰撞的影响加入到reward中吗。

yuecideng commented 5 years ago

也准备学习学习 路径/动作 规划 和强化学习相结合的东西

大神您好,看了你的实现我觉得受益匪浅,有几个问题想请教您。一个是DDPG的actor以及critic的两个神经网络结构的设计思路问题;另一个问题就是我读您的代码,reward的值与 当前位姿和目标位姿的差异 有关,但是没有读到避障的影响,请问可不可以利用ros的API用某种方法使agent同样学习到避障的功能。

你好, 首先DDPG的网络结构基本是采用原论文的实现,原文链接 https://arxiv.org/abs/1509.02971。设计思路其实就是设计一个非线性的函数映射,如果想更改的话,可以从1. 单层神经元个数,2. 网络层数 和3. 激活函数下手。基本上如果环境简单(state,action关系明显),可以用简单的网络。复杂的环境可以用复杂的网络。(最好还是需要通过实验来验证收敛性)。 想让agent避障的话(动态障碍),需要有传感器提供障碍物的信息(如摄像头)加入state作为输入。静态障碍简单点,可以不需要提供障碍物信息,但需要提供agent和障碍物碰撞的反馈信号。(Gazebo里有contact sensor 可以实现,可以先在仿真环境里训练然后用在实物上。实物的话还是需要找到合适的传感器来检测agent的碰撞情况)。 希望对你有帮助。(TD3_vision.py, 和 env2.py 这两个文件有用摄像头作为输入,学习动态避障的实现)

谢谢您的解答!目前我在做静态的避障,未来会继续在动态障碍上进行探索,您的解答对我很有帮助。之前我对moveit有了一些了解,我可以使用moveit中的API去做碰撞检测然后把碰撞的影响加入到reward中吗。

moveit不熟。。不过貌似可以检查出碰撞情况。你可以把这个信号用ros 通信 给到env.py环境里,然后reward就可以基于这个碰撞条件做更改了。(觉得有帮助的话帮忙star一下~哈哈,我也是github新手,希望以后能多做点开源贡献)

MLZG commented 5 years ago

也准备学习学习 路径/动作 规划 和强化学习相结合的东西

大神您好,看了你的实现我觉得受益匪浅,有几个问题想请教您。一个是DDPG的actor以及critic的两个神经网络结构的设计思路问题;另一个问题就是我读您的代码,reward的值与 当前位姿和目标位姿的差异 有关,但是没有读到避障的影响,请问可不可以利用ros的API用某种方法使agent同样学习到避障的功能。

你好, 首先DDPG的网络结构基本是采用原论文的实现,原文链接 https://arxiv.org/abs/1509.02971。设计思路其实就是设计一个非线性的函数映射,如果想更改的话,可以从1. 单层神经元个数,2. 网络层数 和3. 激活函数下手。基本上如果环境简单(state,action关系明显),可以用简单的网络。复杂的环境可以用复杂的网络。(最好还是需要通过实验来验证收敛性)。 想让agent避障的话(动态障碍),需要有传感器提供障碍物的信息(如摄像头)加入state作为输入。静态障碍简单点,可以不需要提供障碍物信息,但需要提供agent和障碍物碰撞的反馈信号。(Gazebo里有contact sensor 可以实现,可以先在仿真环境里训练然后用在实物上。实物的话还是需要找到合适的传感器来检测agent的碰撞情况)。 希望对你有帮助。(TD3_vision.py, 和 env2.py 这两个文件有用摄像头作为输入,学习动态避障的实现)

谢谢您的解答!目前我在做静态的避障,未来会继续在动态障碍上进行探索,您的解答对我很有帮助。之前我对moveit有了一些了解,我可以使用moveit中的API去做碰撞检测然后把碰撞的影响加入到reward中吗。

moveit不熟。。不过貌似可以检查出碰撞情况。你可以把这个信号用ros 通信 给到env.py环境里,然后reward就可以基于这个碰撞条件做更改了。(觉得有帮助的话帮忙star一下~哈哈,我也是github新手,希望以后能多做点开源贡献)

啊啊好。谢谢你呀,其实我觉得RL做规划其实还有蛮多可以改进的地方的,我也在探索和思考,以后有问题说不定还会请教您哈哈

yuecideng commented 5 years ago

@MLZG 好的,有问题可以互相探讨🤝