哥，您好，有这方面的相关教程推荐吗~

Water2style commented 5 years ago

也准备学习学习路径/动作规划和强化学习相结合的东西

yuecideng commented 5 years ago

也准备学习学习路径/动作规划和强化学习相结合的东西不好意思，才看见。。。我有部分思路是从 https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/ 这里参考的，莫凡的小教程是不错的入门。但还是要具体做项目解决问题才能有更深刻的体会

Water2style commented 5 years ago

也准备学习学习路径/动作规划和强化学习相结合的东西不好意思，才看见。。。我有部分思路是从 https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/ 这里参考的，莫凡的小教程是不错的入门。但还是要具体做项目解决问题才能有更深刻的体会

好的谢谢老哥

MLZG commented 5 years ago

大神您好，看了你的实现我觉得受益匪浅，有几个问题想请教您。一个是DDPG的actor以及critic的两个神经网络结构的设计思路问题；另一个问题就是我读您的代码，reward的值与当前位姿和目标位姿的差异有关，但是没有读到避障的影响，请问可不可以利用ros的API用某种方法使agent同样学习到避障的功能。

yuecideng commented 5 years ago

也准备学习学习路径/动作规划和强化学习相结合的东西

大神您好，看了你的实现我觉得受益匪浅，有几个问题想请教您。一个是DDPG的actor以及critic的两个神经网络结构的设计思路问题；另一个问题就是我读您的代码，reward的值与当前位姿和目标位姿的差异有关，但是没有读到避障的影响，请问可不可以利用ros的API用某种方法使agent同样学习到避障的功能。

你好，首先DDPG的网络结构基本是采用原论文的实现，原文链接 https://arxiv.org/abs/1509.02971。设计思路其实就是设计一个非线性的函数映射，如果想更改的话，可以从1. 单层神经元个数，2. 网络层数和3. 激活函数下手。基本上如果环境简单（state，action关系明显），可以用简单的网络。复杂的环境可以用复杂的网络。（最好还是需要通过实验来验证收敛性）。

想让agent避障的话（动态障碍），需要有传感器提供障碍物的信息（如摄像头）加入state作为输入。静态障碍简单点，可以不需要提供障碍物信息，但需要提供agent和障碍物碰撞的反馈信号。（Gazebo里有contact sensor 可以实现，可以先在仿真环境里训练然后用在实物上。实物的话还是需要找到合适的传感器来检测agent的碰撞情况）。

希望对你有帮助。（TD3_vision.py, 和 env2.py 这两个文件有用摄像头作为输入，学习动态避障的实现）

MLZG commented 5 years ago

也准备学习学习路径/动作规划和强化学习相结合的东西

大神您好，看了你的实现我觉得受益匪浅，有几个问题想请教您。一个是DDPG的actor以及critic的两个神经网络结构的设计思路问题；另一个问题就是我读您的代码，reward的值与当前位姿和目标位姿的差异有关，但是没有读到避障的影响，请问可不可以利用ros的API用某种方法使agent同样学习到避障的功能。

你好，首先DDPG的网络结构基本是采用原论文的实现，原文链接 https://arxiv.org/abs/1509.02971。设计思路其实就是设计一个非线性的函数映射，如果想更改的话，可以从1. 单层神经元个数，2. 网络层数和3. 激活函数下手。基本上如果环境简单（state，action关系明显），可以用简单的网络。复杂的环境可以用复杂的网络。（最好还是需要通过实验来验证收敛性）。

想让agent避障的话（动态障碍），需要有传感器提供障碍物的信息（如摄像头）加入state作为输入。静态障碍简单点，可以不需要提供障碍物信息，但需要提供agent和障碍物碰撞的反馈信号。（Gazebo里有contact sensor 可以实现，可以先在仿真环境里训练然后用在实物上。实物的话还是需要找到合适的传感器来检测agent的碰撞情况）。

希望对你有帮助。（TD3_vision.py, 和 env2.py 这两个文件有用摄像头作为输入，学习动态避障的实现）

谢谢您的解答！目前我在做静态的避障，未来会继续在动态障碍上进行探索，您的解答对我很有帮助。之前我对moveit有了一些了解，我可以使用moveit中的API去做碰撞检测然后把碰撞的影响加入到reward中吗。

yuecideng commented 5 years ago

也准备学习学习路径/动作规划和强化学习相结合的东西

大神您好，看了你的实现我觉得受益匪浅，有几个问题想请教您。一个是DDPG的actor以及critic的两个神经网络结构的设计思路问题；另一个问题就是我读您的代码，reward的值与当前位姿和目标位姿的差异有关，但是没有读到避障的影响，请问可不可以利用ros的API用某种方法使agent同样学习到避障的功能。

你好，首先DDPG的网络结构基本是采用原论文的实现，原文链接 https://arxiv.org/abs/1509.02971。设计思路其实就是设计一个非线性的函数映射，如果想更改的话，可以从1. 单层神经元个数，2. 网络层数和3. 激活函数下手。基本上如果环境简单（state，action关系明显），可以用简单的网络。复杂的环境可以用复杂的网络。（最好还是需要通过实验来验证收敛性）。想让agent避障的话（动态障碍），需要有传感器提供障碍物的信息（如摄像头）加入state作为输入。静态障碍简单点，可以不需要提供障碍物信息，但需要提供agent和障碍物碰撞的反馈信号。（Gazebo里有contact sensor 可以实现，可以先在仿真环境里训练然后用在实物上。实物的话还是需要找到合适的传感器来检测agent的碰撞情况）。希望对你有帮助。（TD3_vision.py, 和 env2.py 这两个文件有用摄像头作为输入，学习动态避障的实现）

谢谢您的解答！目前我在做静态的避障，未来会继续在动态障碍上进行探索，您的解答对我很有帮助。之前我对moveit有了一些了解，我可以使用moveit中的API去做碰撞检测然后把碰撞的影响加入到reward中吗。

moveit不熟。。不过貌似可以检查出碰撞情况。你可以把这个信号用ros 通信给到env.py环境里，然后reward就可以基于这个碰撞条件做更改了。（觉得有帮助的话帮忙star一下～哈哈，我也是github新手，希望以后能多做点开源贡献）

MLZG commented 5 years ago

也准备学习学习路径/动作规划和强化学习相结合的东西

大神您好，看了你的实现我觉得受益匪浅，有几个问题想请教您。一个是DDPG的actor以及critic的两个神经网络结构的设计思路问题；另一个问题就是我读您的代码，reward的值与当前位姿和目标位姿的差异有关，但是没有读到避障的影响，请问可不可以利用ros的API用某种方法使agent同样学习到避障的功能。

你好，首先DDPG的网络结构基本是采用原论文的实现，原文链接 https://arxiv.org/abs/1509.02971。设计思路其实就是设计一个非线性的函数映射，如果想更改的话，可以从1. 单层神经元个数，2. 网络层数和3. 激活函数下手。基本上如果环境简单（state，action关系明显），可以用简单的网络。复杂的环境可以用复杂的网络。（最好还是需要通过实验来验证收敛性）。想让agent避障的话（动态障碍），需要有传感器提供障碍物的信息（如摄像头）加入state作为输入。静态障碍简单点，可以不需要提供障碍物信息，但需要提供agent和障碍物碰撞的反馈信号。（Gazebo里有contact sensor 可以实现，可以先在仿真环境里训练然后用在实物上。实物的话还是需要找到合适的传感器来检测agent的碰撞情况）。希望对你有帮助。（TD3_vision.py, 和 env2.py 这两个文件有用摄像头作为输入，学习动态避障的实现）

谢谢您的解答！目前我在做静态的避障，未来会继续在动态障碍上进行探索，您的解答对我很有帮助。之前我对moveit有了一些了解，我可以使用moveit中的API去做碰撞检测然后把碰撞的影响加入到reward中吗。

moveit不熟。。不过貌似可以检查出碰撞情况。你可以把这个信号用ros 通信给到env.py环境里，然后reward就可以基于这个碰撞条件做更改了。（觉得有帮助的话帮忙star一下～哈哈，我也是github新手，希望以后能多做点开源贡献）

啊啊好。谢谢你呀，其实我觉得RL做规划其实还有蛮多可以改进的地方的，我也在探索和思考，以后有问题说不定还会请教您哈哈

yuecideng commented 5 years ago

@MLZG 好的，有问题可以互相探讨🤝

yuecideng / Ur5_DRL