第12章 标杆学习算法

标杆学习算法是受到标杆管理理念的启发而设计的基于动态小生境的竞争性学习算法。通过对标杆的模仿学习,种群内个体执行方向明确的主动学习式搜索,能够快速搜索到解空间内的目标区域,具有较好的智能性。整个小生境种群系统通过自组织学习实现与环境的友好交互,较好地解决了保持种群多样性的难题。仿真对比结果表明,算法能够与环境进行稳定而友好的交互,表现出较强的鲁棒性,其搜索速度和寻优能力在实验中均有较好的表现。本章介绍标杆管理的基本思想、标杆学习算法的基本原理、数学描述、算法实现的流程。

12.1 标杆学习算法的提出

标杆学习算法(Benchmark Learning Algorithm,BLA)是由谢安世博士在他的硕士论文“一种新型的智能优化算法”(安徽工业大学,2010)中提出的[46]。2014年他在清华大学攻读博士学位期间又发表了两篇论文[47][48]:在一篇论文中,作者将该算法称为基于标杆的优化算法(Benchmarking-based Optimazition Algorithm,BOA),通过15种测试函数将该算法同5种算法进行综合比较后认为,BOA既是一种学习式的搜索策略,又是竞争性的寻优方法,具有总体结构简单、易于编程、搜索效率较高、收敛速度较快的特点;在另一篇论文中,作者将该算法用于最优化供电商购电组合求解,仿真结果表明,该算法具有一定的实用性和灵活性。

12.2 标杆管理的基本思想

标杆管理(Benchmarking)一词来源于美国企业管理界,首次出现于施乐公司(Xerox Comporation)。20世纪80年代初,该公司在全美复印机市场的比例,由80%骤降至10%,出现了生存危机。为拯救危亡,公司推出策略计划“Leadership through Quality”,它是由员工参与、学习标杆及质量改进3项重要策略所构成的,由于领导者坚持贯彻执行,因此终于带领公司走出困境,并为此于1989年获美国国家质量奖,他们所采用“学习标杆”的做法,后来也成为企业界通行的管理理念和管理工具。

标杆管理原意为“固定对象的标记,诸如用石柱来说明高出海平面之高度,作为调查中的参考点”,有基准之意,其构想是寻找学习的对象,以他们的既有成就为基准,通过合法管道学习,以“见贤思齐”的方式,达到改善自己经营品质的目的。

美国生产力与质量中心将标杆管理定义为“标杆管理是一项有系统、持续性的评估过程,通过不断地将企业与世界上居领导地位之企业相比较,以获得协助改进经营绩效之信息”。

标杆管理包括4项基本原则(核心价值观):全面品质观、流程观、衡量标准观和学习观。全面品质观旨在达成顾客的全面性满意;流程观是指标杆管理涵盖学习对象的运营流程及组织内部的计划和运作流程;衡量标准观是指标杆管理须制定出某些组织功能上共同绩效衡量标准,作为比较的依据;学习观则同时强调向他人学习与自我学习的精神。在管理学中,标杆管理既是一种态度也是一种行动,表现为一个持续的学习过程,不断地向标杆迈进,不断地创新与改善,不断地提升发展优势,不断地提升组织绩效。

标杆管理是以知己知彼的方式,来检验自己和了解竞争对手,从而知道自己到底与竞争对手的差距有多少。一般来说,标杆因对象和范围的不同可分成4类:内部标杆、竞争标杆、机能标杆及一般标杆。

(1)内部标杆:指企业内各部门、工厂、分公司之间某一类似作业过程或工作方法,彼此相互观摩学习,找出组织内不同部门之间的绩效差异,进行改善。

(2)竞争标杆:指向竞争对手学习,将与其营运有关的重要项目,与竞争对手进行标杆研究比较,比较的项目包括产品的质量、价格、生产/服务过程、绩效等,择优学习。

(3)机能标杆:指针对某一机能或过程的改善,先定出某些企业机能领域,例如生产、营销、财务、服务等的绩效衡量标准,而后寻求在此特定领域内表现卓越的其他组织,比较企业本身与标杆组织之间的绩效差距,分析其作业过程的优点,以达到改善绩效的目的。

(4)一般标杆:指将创新的学习方法运用到过程或策略的改善上,专注于学习卓越的作业过程。

12.3 标杆学习算法的基本原理

标杆管理旨在找出与最佳个案的差距,并通过模仿学习快速缩小差距乃至超越对手。

标杆学习算法的基本思想:整个生态系统(解空间)内分布着若干小生境种群,即全球市场上各大企业法人主体,种群内众多个体相当于企业内部员工(或部门);根据优化目的,以目标值大小为衡量标准,确定各小生境种群内最佳个体(即局部最佳个体)和整个生态系统内的最佳个体(即全局最佳个体),相当于树立内部标杆和外部标杆;各小生境种群中的每个个体向全局最佳个体和局部最佳个体学习,即每个个体既会向外部标杆和内部标杆进行学习,还会进行自我学习;通过对标杆进行模仿学习,迅速超越学习对象(标杆),进而成为其他个体学习的对象。

在算法运行过程中,用一个记录本记录算法在每次迭代中产生的全局最佳个体和各小生镜种群内的最佳个体,即记录每一代的外部标杆和内部标杆。随着学习过程的进行,当某个小生境种群发现了较好的全局解时(即重新树立了外部标杆),其他小生境种群将指派部分个体进入该小生境种群以协助进行密集搜索。但如果某个小生境种群在进化过程中一直都没发现较好的全局解,则其中所有个体将会逐渐被调往其他小生境种群,最终导致该小生境种群消亡。同理,如果某个体能够发现较好的全局解,则将会从其他小生境种群中吸引更多的个体到其邻域内而形成新的小生境种群,这就是所谓的动态小生境技术。

在搜索学习的过程中,每个个体的学习欲望和学习强度各不相同,其大小是由该个体自身的目标值与其学习对象的目标值及两者距离决定的,差距越小,学习欲望越大,随之其学习强度也越大。这种策略使得生态系统内有前途的个体快速聚集到最优个体的邻域之内,以协助其进行密集搜索,这个自组织过程体现了强者更强、弱者更弱的马太效应(Matthew Effect)。这种策略是否会使种群的多样性降低呢?在搜索空间的某一局部区域,即某个小生境种群内,多样性会有一定程度的降低,但这对整个生态系统(即整个搜索空间)并无太多消极影响,因为随着学习过程的进行,取得最优解的个体(包括全局最佳个体和局部最佳个体)也会不断发生改变,因此生态系统内其余个体的学习对象也在不断变化着,因此不可能出现所有个体呈现相同基因型的情况,这就保证了整个生态系统和各小生境种群内的多样性,从而保证了算法在搜索过程中的勘探性,这已在仿真结果中得到了证实。

12.4 标杆学习算法的数学描述

1)外部标杆学习

是整个生态系统内具有最佳目标值(全局最大或最小)的个体,也即外部标杆,其对应的基因表达式为;种群PK所属的第i个个体所对应的基因表达式为,则个体的外部学习率为

其中,Grate′为外部学习率的初始值;为个体的目标值;为该个体所在种群PK的平均目标值。

可以看出,某个体的目标值越符合优化目的,则其学习欲望越强烈,其外部学习率越大。即生态系统内那些有前途的个体主动聚集到全局最佳个体所在的搜索邻域内,因而能起到协助搜索的作用。

如果采用0-1编码方案,则个体进行外部标杆学习,指相异的基因位值以的概率替换成中相应的基因位值,即个体主动缩小与全局最佳个体的海明距离(Hamming Distance)。

如果采用浮点数编码方案,则个体进行外部标杆学习,指的概率按式(12.2)进行更新,即个体主动缩小与全局最佳个体的欧氏距离(Euclidean Distance)。

其中,λ∈[0,1]为进行外部标杆学习时的移动步长因子。

实验结果表明,当λ与搜索空间的大小成正比例时,优化效果较好;另外,也可以引入目标值等因素,使λ在学习过程中动态变化,效果会更好。

2)内部标杆学习

是小生境种群PK内具有最佳目标值的个体(局部最佳个体,即内部标杆),其对应的基因表达式为;该种群内第i个个体所对应的基因表达式为,则个体的内部学习率为

其中,为内部学习率的初始值;HDkh为该个体与的海明距离;Length为种群内个体的基因表达式编码长度;EDkh为该个体与的欧氏距离,即;Radius为搜索空间的直径,即,其中xi是个体基因表达式中的第i维分量,且xi∈[ai-bi]。

由式(12.3)可知,当小生境种群中某个体与该种群的最佳个体的海明(或欧氏)距离较小时,其学习欲望会自动增加,从而迅速迁移到该种群内最佳个体的搜索邻域内,以协助该局部最佳个体进行搜索。

与外部标杆学习类似,当采用0-1编码方案时,个体进行内部标杆学习是指相异的基因位值以的概率转换成中相应的基因位值,即个体主动缩小与局部最佳个体的海明距离;采用浮点数编码方案时,个体进行内部标杆学习,指的概率按式(12.4)进行更新,即个体主动缩小与局部最佳个体的欧氏距离。

同理,λ∈[0,1]是进行内部标杆学习时的移动步长因子。这里的外部标杆学习和内部标杆学习都是缩小个体之间的海明(或欧氏)距离,看似相同,但事实上两者却有很大的差异。这种拉近与最优个体距离的行为,既有利于种群个体进行集中搜索,从而形成群集效应,快速搜索到全局最优解,同时又是保持种群多样性的最佳手段之一,因为每个个体的学习对象是不断动态变化的,所以生态系统内个体群集的层次也是动态变化的。

3)自我学习

是隶属小生境种群PK的个体,则个体的自我学习率为

其中,Srate′为自我学习欲望的初始值;为个体的目标值;为该个体所在种群PK的平均目标值。

由式(12.5)可以看出,当优化目的是实现目标最大化时,如果个体的目标值小于其所在种群的平均目标值,则其学习欲望会迅速增强,学习率快速提高到一个较大的数值,于是有较多机会得到其对偶个体,以提高其自身的目标值;但如果该个体的目标值已经比该种群的平均目标值大,则其学习欲望会快速消退,学习率快速降低到一个较小的数值,这样可保护优良基因避免遭到破坏。同理,当优化目的是实现目标最小化时,其自学习欲望也会相应地自动调整,以符合优化目的。

如果采用0-1编码方案,则个体进行基于对偶映射的自我学习,是指该个体的基因表达式中每个基因位都以的概率执行对偶映射,即0↔1,如图12.1所示。

图12.1 对偶映射

如果采用浮点数编码方案,则个体进行基于混沌的逻辑斯蒂映射自我学习,即指个体的基因表达式的概率按式(12.6)进行更新。

其中,xi∈[ai-bi],i=1,2,3,…,nδ∈[2,4]。

个体利用混沌运动对初始状态的敏感性和非重复的遍历性,能及时跳出当前所在区域,以便对解空间的其他区域进行全局搜索。

12.5 标杆学习算法的实现流程

在搜索学习的过程中,各个小生境种群进行自组织学习:在学习方案确定的前提下,种群内每个个体首先进行外部标杆学习,即向整个生态系统内具有最佳目标值的个体学习,参照该最佳个体来调整自己的搜索方向和搜索步长,即主动拉近与外部标杆的距离;如果目标值没有得到改善,则该个体进行内部标杆学习,即向该个体所在种群内具有最佳目标值的个体学习,参照本种群内的最优个体来调整自己的搜索方向和搜索步长,即主动拉近与内部标杆的距离;如果目标值仍然没有得到改善,则该个体继续进行自我学习,即个体通过对偶(或混沌)映射转变为自己的对偶个体。此外,各小生境种群在学习过程中不断相互交换最佳个体,即各小生境种群内个体的学习对象(内部标杆)不断发生改变。个体的上述3个学习行为并不是顺序执行的,而是有选择地执行的,即当个体在执行前一个学习行为之后没有得到改善时才会执行另一个学习行为。标杆学习算法的实现流程如图12.2所示。

图12.2 标杆学习算法的实现流程图