- 智能控制与强化学习:先进值迭代评判设计
- 王鼎 赵明明 哈明鸣 任进
- 860字
- 2025-01-09 16:59:58
1.2.5 演化值迭代算法
对于在线控制,闭环系统受控于不同的迭代控制策略,这意味着最初作用于系统的控制策略是不成熟的,即不是最优控制策略。在这种情况下,系统的稳定性难以保证。在过去十几年中,PI 算法在非线性系统的在线控制方面取得了许多令人瞩目的成就。然而,对于VI算法作用下非线性系统的在线实现和稳定性分析还很少。对于在线学习,策略需要随着时间的推移而演变,例如当前的稳定迭代策略ui(x)作用于系统Ti∈N+ ={1,2, …}个时间步后,需要转换到下一个稳定迭代策略ui+1 (x)继续控制系统Ti+1∈ N+个时间步,这个过程称为演化控制,采用的稳定策略称为演化策略。
需要强调演化 VI 不特指某个算法,只要能实现演化控制的 VI 算法统称为演化 VI 算法。为了详细说明不同 VI 算法的演化控制过程,需要首先对其稳定性进行研究,表1-1中给出了传统VI、广义VI、稳定VI和集成VI算法的初始条件及单调性比较。可以得出,由广义 VI(V0≥V1 )、稳定 VI,以及集成 VI算法产生的迭代策略都是容许的,因此每一个演化策略都可以作用于受控系统一定时间步,从而实现在线演化控制[55]。文献[31]首次证明了稳定 VI 算法产生的演化策略能够使得系统渐近稳定到平衡点,这得益于稳定VI算法的所有控制策略都是稳定的。此外,尽管传统 VI 和广义 VI(V0≤V1)算法产生的迭代策略并非都是容许的,但文献[32]指出这两类 VI 算法也能实现演化控制,这要求持续判断迭代过程中策略的容许性。定义一个有限的演化策略集合,其中每一个演化策略都满足容许条件(1-14)。对于传统VI或广义VI(V0≤V1 )算法产生的迭代策略,如果ui(x)第1次满足容许性判别准则,则令,如果ui+j (x),j∈ N+第2次满足容许性判别准则,则令,即al代表迭代策略第l次满足容许性判别准则。核心思想是利用当前演化策略控制系统个时间步,然后转换到下一个演化策略控制系统+个时间步,直到系统渐近稳定到平衡点。在这个过程中,使用的控制策略不断地朝着最优控制策略的方向更新演化。毫无疑问,VI的演化控制机制促进了具有稳定性保证的在线ADP算法的发展,克服了离线VI算法效率低的缺点。
表1-1 4种算法的初始条件及单调性比较