2.4 极限学习机

极限学习机(Extreme Learning Machines,ELM)是一种新型神经网络,它源于多层前馈神经网络,采用单隐含层前馈神经网络结构(Single-hidden Layer Feedforward Neural Networks,SLFN)。与常规前馈神经网络训练方法的区别在于其隐含层的构建过程,在极限学习机中,输入权值、隐含层节点偏置(Sigmoid激活函数)和中心宽度(RBF激活函数)都是随机产生的,并且一旦确定就不再改变,唯一需要确定的是网络的输出权值。与传统的多层前馈神经网络训练算法相比,极限学习机训练过程简单、快捷,因而得到迅速发展和广泛应用。在本书1.3.2小节对极限学习机的起源发展与研究现状做了简要介绍,为使读者更好地理解极限学习机算法,本节将详细介绍极限学习机的运行机制,并对其存在的问题进行说明。

2.4.1 极限学习机的运行机制[29]

作为一种新型的单隐含层前馈神经网络学习算法,极限学习机得以迅速发展并被广泛使用的原因在于其简单的结构、快速的训练速度以及较高的泛化性能。极限学习机的结构如图2.6所示。

通过本书1.1.1小节对监督学习的概述可知,学习器根据有标记的样本集(即训练样本集)进行训练得到模型用于预测无标记的样本,而评价学习器性能的优劣通常使用代价函数。极限学习机监督学习算法的代价函数E可定义为

图2.6 极限学习机结构示意图

式中:N为有标记训练样本的数目;为隐层节点的数目,xj=[xj1,…,xjn]T为标记输入样本的输入向量;n为样本向量的维数;tj为样本向量xj的类别标记向量,tj=[tj1,…,tjn]Twi为连接输入节点与第i个隐含层节点的输入权值向量,wi=[wi1,…,win]Tbi为第i个隐含层节点的偏置值;g(·)为隐含层节点的激活函数;βi为连接第i个隐含层节点与网络输出节点的输出权值向量,βi=[βi1βi2 ,…,βic]Tc为样本中类别的数目,规定其值等于网络的输出节点数目。

最小化单隐含层前馈神经网络的代价函数等价于寻找满足式(2.47)的特殊解,即

式中:H为神经网络的隐含层输出矩阵;β为输出权值矩阵;T为训练样本集的类别标记矩阵。具体定义为

严格证明了当神经网络中隐含层节点的激活函数无限可微时,网络的输入权值和偏置值可随机赋值而不必采用常规的梯度下降学习算法进行迭代调整,并且单隐含层神经网络的监督学习过程等价于求取线性系统=T的范数最小的最小二乘解(Minimum Norm Least-Squares Solution)。由此可得到β的一个特殊解,即

式中:H为矩阵H的Moore Penrose广义逆[30]。在rank(H)=的条件下可由正交投影方法求得,即

HTH为奇异矩阵时,可降低网络隐含层节点的数目N~使其变为非奇异矩阵,从而实现对其求逆。综前所述,极限学习机的监督学习算法可概括为以下3步:

1)对网络的输入权值wi和偏置值bi进行随机赋值,其中i=1,…,N~。

2)按照式(2.48)计算隐含层输出矩阵H

3)按照式 (2.50)和式 (2.51)计算隐含层输出权值矩阵

与传统的梯度下降算法相比,极限学习机算法没有迭代过程,因此具有训练速度快的特点,这也是极限学习机被广泛研究与应用的因素之一。另外,对于前馈神经网络而言,训练误差相同时,权值的范数越小,网络的泛化能力越强[31]。由式(2.50)计算得到的输出权值是范数最小的最小二乘解[29],因此极限学习机算法具有较强的泛化能力。

2.4.2 极限学习机算法存在的问题

通过2.4.1小节对极限学习机运行机制的介绍可知,极限学习机算法具有泛化能力强、训练速度快等特点,但是在模型自身的稳定性和训练速度方面,极限学习机仍然存在着进一步提升的空间。因此,本小节将对影响极限学习机稳定性和训练速度这两方面的关键因素进行分析,并在此基础上介绍极限学习机的改进方法。

(1)影响极限学习机稳定性的关键因素

极限学习机的训练过程等价于通过最小二乘法对线性系统=T进行求解[32],即

式中:β为网络的输出权值矩阵;β的一个特殊解;H为隐含层输出矩阵H的伪逆;T为目标矩阵。

在求解时,极限学习机通过奇异值分解(Singular Value Decomposition,SVD)计算隐含层输出矩阵H的 Moore-Penrose广义逆H。隐含层输出矩阵H的奇异值分解可以表示为

式中:U=(u1,…,);V=(v1,…,);=diag(σ1,…,);σii=1,…,表示H个奇异值,且按大小顺序排列,即0。设严格为正的奇异值数量为r,即隐含层输出矩阵H的秩为r,则有σrσr+1=…==0。

由式(2.53)得到隐含层输出矩阵H的奇异值后,可按照式(2.54)计算H的Moore-Penrose广义逆H,即

将式(2.54)代入式(2.52)即可得到网络的输出权值矩阵,即

在实际应用中,由于目标矩阵T常受到噪声的干扰,为便于分析,令e为目标矩阵中的扰动分量,=T+e为实际应用中含噪声的目标向量,此时,极限学习机的输出权值矩阵可表示为

若隐含层输出矩阵H具有不适定性,即存在某些数值极小的奇异值。在式(2.56)中,若分母中的σi极小,相当于增加了扰动的幅值,使得模型极易受到扰动分量e的影响,同时输出权值矩阵的数值也将变得非常大,从而极大地影响整个模型的输出。因此,隐含层输出矩阵H的不适定性是影响极限学习机稳定性的关键因素。

(2)影响极限学习机训练速度的关键因素

极限学习机训练过程的主要时间消耗在Moore-Penrose广义逆H的求解。如式(2.54)~式(2.56)所示,Moore-Penrose广义逆H的求解主要包含矩阵H的奇异值分解以及后续简单的数学运算。隐含层输出矩阵HH)奇异值分解的计算复杂度为O(4N+8[33]N为训练样本的个数,为网络的隐含层节点数),当网络隐含层节点数增加时,奇异值分解的计算复杂度将按幂指数增长。因此,较大运算量的奇异值分解操作是影响极限学习机训练速度的关键因素。有文献指出,可以通过剪枝方法来降低网络的结构复杂度 (隐含层的节点数),但这类方法所使用的剪枝技术会使极限学习机丧失其网络结构独立于训练样本的特性,影响算法的精度。

综上所述可知,如何处理网络隐含层输出矩阵的不适定性和降低奇异值分解的计算复杂度是优化极限学习机性能的两个重要方向。

有研究表明,正则化方法能够有效地解决隐含层输出矩阵的不适定问题[34,35],其原因在于正则化方法使用一组与原不适定问题相“邻近”的适定问题的解去逼近原问题的解。其中最具代表性的有截断奇异值分解(Truncated Singular Value Decomposition,TSVD)和Tikhonov正则化(Tikhonov Regularization)两种方法。事实上,截断奇异值分解方法能够产生与Tikhonov正则化方法相似的结果[36]。两者的区别在于,截断奇异值分解方法主要关注对应矩阵中最大的k个奇异值,以此来避免小奇异值做分母时对运算结果可能产生的不利影响。基于截断奇异值分解方法的H计算公式为

式中:κ为截断奇异值分解方法的截断系数,且

针对降低奇异值分解计算复杂度的问题,截断奇异值分解方法则失去优势。虽然截断奇异值分解方法能够提供比奇异值分解更稳定的解,但该方法仍然是以奇异值分解的结果为基础的,即这两种方法在计算复杂度上没有多大的区别[37]