自动化所复杂管理系统与控制国家重点实验室针对一类非线性吊车系统,建立一种基于评判学习机制的智能优化控制方法,通过近似求解Hamilton–Jacobi–Bellman方程,实现含有折扣因子代价函数时的最优反馈镇定。利用神经网络的在线学习能力,提出一种不同于传统自适应评判算法的新颖权值更新策略,降低对于系统初始稳定控制律的要求,由此给自适应评判控制设计带来极大便利。
研究团队不仅从理论上证明了闭环系统的稳定性;而且针对所述非线性吊车系统开展仿真实验,考虑不同折扣因子情况下的控制效果,经过充分的对比分析验证了文中方法的有效性。
首先,针对一类实际吊车系统(图1)构建连续时间状态空间模型,定义含有折扣因子的代价函数,考虑这一复杂非线性系统在特定性能指标下的状态反馈优化镇定问题。对于一般非线性系统的最优控制设计,为了有效的求解其中的Hamilton–Jacobi–Bellman方程,研究者引入智能评判控制方法,旨在通过有关参数的自适应更新与自主学习,得到近似的优化控制律。
其次,提出改进的评判网络更新准则,构建本文中的自适应评判控制方案框架,如图2所示。改进的神经网络学习策略是在传统策略迭代算法的基础上,融入反映系统稳定性能的增强项,形成一种新颖的评判学习机制,直接作用于评判神经网络,引导更加高效的训练和学习,这样可以消除对于被控系统初始稳定控制律的依赖,更方便于实现自适应评判控制算法。
最后,将上述智能优化策略应用于吊车系统,考虑不同折扣因子得到不同的响应曲线,达到近似最优反馈镇定的目的,而且实现过程简单,由此验证该方法的良好控制性能。实验结果表明:当增大折扣因子时,实现被控系统优化镇定的代价函数将逐渐变小,这也反映了在代价函数中引入折扣因子的作用。图3和4刻画一种特定情形时的系统状态和控制输入曲线。
该项成果发表于工业电子领域顶级期刊IEEE Transactions on Industrial Informatics (2018年,第14卷,7期)。
图1
图2
图3
图4