- 智能控制与强化学习:先进值迭代评判设计
- 王鼎 赵明明 哈明鸣 任进
- 2356字
- 2025-01-09 16:59:56
第1章 智能评判控制的先进值迭代方法概述
1.1 引言
最优化设计在工业生产、信息技术、经济管理、生态环境等领域有着广泛的应用,特别在自动控制设计中扮演着重要角色[1]。随着工业、交通、能源、生态等系统规模的不断扩大,整个控制系统往往呈现结构复杂多样、部件高度集成、数据繁冗复杂和变量耦合相关等非线性特征,这对实现其最优控制提出了巨大的挑战[2]。线性系统最优控制的核心思想在于求解 Riccati 方程,通过数学运算能够获得其精确的最优解[3]。然而,对于非线性系统,最优控制设计的难点在于求解Hamilton-Jacobi-Bellman(HJB)方程并获得其近似最优解[4-5]。动态规划在解决最优控制问题方面取得了显著的成果,但由于对精确环境模型的依赖性和搜索过程的逆向性,往往难以处理高维优化问题,并且会产生“维数灾”问题[6-7]。因此,当务之急是提出新颖且先进的最优控制技术,以确保控制器的实用性、决策的快速性和资源利用的高效性。近年来,人工智能已经成为众多行业发展新型智能技术的重要推动力。以人工智能为驱动力的自动化技术深刻影响着信息时代下经济社会的发展,影响着人类社会的许多方面。智能控制技术的快速发展为解决复杂系统的最优控制问题提供了新的途径。
作为人工智能的一个重要分支,强化学习在计算机科学[8]、自动驾驶[9]、移动机器人[10]、智能控制[11-12]等相关领域取得了巨大的成功。一个典型的强化学习系统通常由以下元素组成:智能体、环境、状态、动作、奖励、价值函数。作为一种目标导向型的方法,强化学习允许智能体与环境进行在线交互学习,并研究智能体如何在环境中采取行动,从而最大限度地实现增加累计奖励的目标,其中涉及最优化思想。需要注意采取的动作不仅可能影响当前的奖励,还可能影响所有后续的奖励,这需要智能体评估当前策略的好坏,从而提高后续策略的性能。事实上,强化学习的核心是利用动态规划中的最优性原理解决优化问题[13]。在控制领域,普遍认为强化学习是一种有前途的技术,能够在不建立精确模型的情况下以较少的计算代价解决最优控制问题。一类经典的强化学习算法建立在执行−评判结构之上,即自适应评判设计,其中执行器选择一个策略作用到环境或动态系统中,评判器评估该策略在当前状态下的价值[14]。值得注意的是,强化学习的大量成功应用离不开神经网络强大的近似能力[15],其通常具有自适应、自学习、容错、并行处理等能力。作为智能控制领域的重要组成部分,神经网络已被广泛用于实现系统辨识、模式识别、信号处理、系统控制等。
通过融合动态规划、强化学习、神经网络等技术,Werbos 提出了自适应动态规划(Adaptive Dynamic Programming,ADP)方法[16-17],用于求解非线性HJB方程并进一步获得闭环系统的最优反馈控制策略[18-21]。其中,动态规划提供了理论基础,强化学习提供了评判学习机制,神经网络提供了实现工具[22]。从提出至今,ADP 方法已得到持续不断的关注,并发展出一系列实现结构:启发式动态规划(Heuristic Dynamic Programming,HDP)、二次启发式规划(Dual Heuristic Programming,DHP)、全局二次启发式规划(Globalized Dual Heuristic Pro-gramming,GDHP)、执行依赖启发式动态规划(Action-Dependent Heuristic Dynamic Programming,ADHDP)、执行依赖二次启发式规划(Action-Dependent Dual Heuristic Programming,ADDHP)、执行依赖全局二次启发式规划(Action-Dependent Globalized Dual Heuristic Programming,ADGDHP)[23]。在这些实现结构中,通常会引入两个具有近似能力的神经网络,即评判网络和执行网络,分别进行策略评估和策略提升。强化学习包括值迭代、策略迭代、时序差分、Q学习、策略梯度等方法,其算法的收敛性是计算机科学领域关注的重点。在控制领域中更习惯将强化学习称为 ADP,同时衍生出了一系列与强化学习中一一对应的学习方法,其中最主要的两种形式为值迭代(Value Iteration,VI)ADP算法[24-27]和策略迭代(Policy Iteration,PI)ADP算法[28-29]。对于这些应用到实际系统中的控制算法,其收敛性和由其产生的控制策略稳定性都是需要重点研究的课题。近年来,VI和PI算法的单调性、收敛性、稳定性已被广泛研究,两者在初始条件、学习过程、算法特性上都展现了鲜明的特征。在稳定性方面,PI要求一个初始容许策略,且迭代过程中的所有策略都是稳定的,因此PI极大地促进了在线ADP算法的实现。然而,对于未知的非线性系统,获取初始容许策略是一个艰难的任务。相比之下,VI 算法由于不需要严格的初始条件而更容易实现,但迭代过程中的策略稳定性无法保证,这意味着VI通常只能离线实现且只有收敛的最优策略才能应用于控制对象[30-32]。在收敛性方面,VI和PI算法都能保证迭代代价函数收敛到最优值,但是后者通常具有更快的收敛速度[33]。然而,在每次迭代中,PI 算法的策略评估阶段会引入额外的计算量[34],因此单纯地依靠 PI 来加快算法的收敛速度无法从根本上解决加速学习问题。立足于 VI容易实现的优点,建立新的VI框架以保证迭代策略稳定性,加快算法收敛速度,同时减少计算量是值得重点研究的。
本章重点研究基于评判学习机制的 VI 算法及其各种推广形式,阐述了 VI算法在离散时间非线性最优调节、最优跟踪、零和博弈方面的应用。此外,简要介绍了基于评判学习机制的PI算法性质。众所周知,传统的VI算法表现出收敛速度慢、迭代控制策略不稳定等特性。因此,如何保证迭代策略的有效性,实现具有稳定性保证的在线演化控制,加快控制器学习速度,是VI算法所面临的瓶颈问题。面对这些挑战,本章概括并提出了一些先进的VI方案,如广义VI、稳定VI、集成VI、演化VI、可调节VI等。最后,对VI算法的理论和应用做出展望。主要内容总结如下。
(1)对VI框架下的固定策略和演化策略稳定性进行了全面深入的分析,建立了一系列适用于不同场景的稳定性准则。从理论层面揭示了VI算法能够实现离线最优控制和在线演化控制。
(2)基于迭代历史信息,提出一种新颖的收敛速度可调节的VI算法,有助于加快学习速度,减少计算代价,更高效地获得非线性系统的最优控制律。
(3)针对非线性系统最优跟踪和零和博弈,通过设计不同形式的代价函数推广先进 VI 算法实现控制。验证了先进 VI 机制不仅适用于最优调节,而且能够有效处理非线性跟踪和零和博弈问题。