使用ADP设计线性系统最优控制器 | Oliver xu's Blog

olixu / blog-comment

0 stars 0 forks source link

使用ADP设计线性系统最优控制器 | Oliver xu's Blog #80

Open olixu opened 3 years ago

olixu commented 3 years ago

https://blog.oliverxu.cn/2021/06/28/%E4%BD%BF%E7%94%A8ADP%E8%AE%BE%E8%AE%A1%E7%BA%BF%E6%80%A7%E7%B3%BB%E7%BB%9F%E6%9C%80%E4%BC%98%E6%8E%A7%E5%88%B6%E5%99%A8/

搞了很久的ADP（Adaptive dynamic programming），但是，仿真总是会出现一些问题，因为从我个人的理解来看，很多ADP文章其实都是局部且异步的PI或者VI算法。根据《Reinforcement Learning: An Introduction》书中所介绍的方法，PI和VI都是对于离散的状态空间来说的。如果对于具有连续的状态空间的问题来说，需要采用近似的算法来拟合其值函数。

LingzhiZhang-ai commented 2 years ago

你好，请问你做过离散非仿射非线性系统的ADP吗，我最近在复现文章3的仿真，感觉有些问题。

olixu commented 2 years ago

你好，请问你做过离散非仿射非线性系统的ADP吗，我最近在复现文章3的仿真，感觉有些问题。

这些文章基本都是仿真不出来的，你具体有哪些问题？

LingzhiZhang-ai commented 2 years ago

我把问题发到你关联的qq邮箱了，请查收一下吧

mumuyanyan commented 2 years ago

话说，博主那几篇文章都仿真出来了吗？

olixu commented 2 years ago

话说，博主那几篇文章都仿真出来了吗？

没啊，基本上仿真不出来的吧。

CatRouter commented 2 months ago

我找了一个用ADP Track最简单的正弦信号的代码,我的机器都算了几十秒。12代Corei7都要算这么久,那些小U就更吃不消了麻了麻了