olixu / blog-comment

0 stars 0 forks source link

使用ADP设计线性系统最优控制器 | Oliver xu's Blog #80

Open olixu opened 3 years ago

olixu commented 3 years ago

https://blog.oliverxu.cn/2021/06/28/%E4%BD%BF%E7%94%A8ADP%E8%AE%BE%E8%AE%A1%E7%BA%BF%E6%80%A7%E7%B3%BB%E7%BB%9F%E6%9C%80%E4%BC%98%E6%8E%A7%E5%88%B6%E5%99%A8/

搞了很久的ADP(Adaptive dynamic programming),但是,仿真总是会出现一些问题,因为从我个人的理解来看,很多ADP文章其实都是局部且异步的PI或者VI算法。根据《Reinforcement Learning: An Introduction》书中所介绍的方法,PI和VI都是对于离散的状态空间来说的。如果对于具有连续的状态空间的问题来说,需要采用近似的算法来拟合其值函数。

LingzhiZhang-ai commented 2 years ago

你好,请问你做过离散非仿射非线性系统的ADP吗,我最近在复现文章3的仿真,感觉有些问题。

olixu commented 2 years ago

你好,请问你做过离散非仿射非线性系统的ADP吗,我最近在复现文章3的仿真,感觉有些问题。

这些文章基本都是仿真不出来的,你具体有哪些问题?

LingzhiZhang-ai commented 2 years ago

我把问题发到你关联的qq邮箱了,请查收一下吧

mumuyanyan commented 2 years ago

话说,博主那几篇文章都仿真出来了吗?

olixu commented 2 years ago

话说,博主那几篇文章都仿真出来了吗?

没啊,基本上仿真不出来的吧。

CatRouter commented 2 months ago

我找了一个用ADP Track最简单的正弦信号的代码,我的机器都算了几十秒。12代Corei7都要算这么久,那些小U就更吃不消了 麻了麻了