2.3 小样本情况下的线性鉴别分析

本书2.2节所讨论的各种费希尔线性鉴别分析方法的构架都是建立在大样本情况下的,即要求类内散布矩阵是非奇异的。然而,在图像识别领域存在着大量的典型的小样本问题,在该类问题中,类内散布矩阵是奇异的。这是因为待识别的图像向量的维数较高,而在实际问题中难以找到或根本不可能找到足够多的训练样本来保证类内散布矩阵的可逆性。因此,在小样本情况下,如何抽取费希尔最优鉴别特征成为一个公认的难题。目前,处理该问题的方法概括起来可分为以下两类。

一类是从模式样本出发,通过事先降低样本向量的维数来达到消除奇异性的目的。基于这一思想的处理方法又可以分为两种:一种是直接在图像空间内操作,通过降低图像的分辨率达到降维的目的[9,10];另一种是通过PCA变换进行降维,最为典型的例子是Belhumeur[16]等提出的Fisherfaces方法和Liu[17]提出的EFM方法。前一种方法无疑损失了图像的某些细节信息,而后一种方法舍弃了次分量上的投影信息。也就是说,尽管通过这两种降维方法可以消除奇异性,但都是以鉴别信息的损失为代价的,从而无法保证所抽取的特征是最优的。

另一类方法是从算法本身入手,发展直接针对小样本问题的算法来解决问题。Liu[13]、Guo[15]、Hong[18]和Chen[19]等人分别在这方面进行了探索,他们所建立的算法理论无疑为这一问题的彻底解决奠定了基础。但就其算法本身而言,存在着一个共同的弱点,那就是需要在原始样本空间内求解最优鉴别向量集。比如,对于92×112分辨率(该分辨率并不算高)的图像,其对应的原始样本空间的维数高达10 304。在如此高维的空间内求解最优鉴别向量集,所耗费的计算量是可想而知的。也就是说,就计算量而言,利用以上方法从高维的原始图像向量上直接抽取最佳鉴别特征几乎是不可行的。

本节建立了高维、小样本情况下线性鉴别分析的统一的理论框架[20],在该框架下,无论是Foley-Sammon线性鉴别,还是统计不相关线性鉴别,都可以拓展为直接处理高维奇异性问题的方法。该方法体现了通过变换(映射)降维来消除奇异性的思想,但与Fisherfaces方法有着根本的区别,那就是在利用映射原理进行降维的过程中,不损失任何费希尔最优鉴别信息。从理论上我们证明了这一点。另外,更为重要的是,在我们的理论框架下,求解最优鉴别向量集的全过程只需要在一个低维的变换空间内进行,这一点与以往的各种算法,如Liu[13]、Guo[15]、Hong[18]和Chen[19]等提出的算法,有着本质上的不同。

在以上理论框架下,本节具体给出Foley-Sammon线性鉴别分析和不相关线性鉴别分析的实现方法,并在分析了两者优缺点的基础上,进一步发展了小样本情况下线性鉴别分析的理论,建立了能同时融合二者优点而消除彼此弱点的组合鉴别分析方法。

2.3.1 两种线性鉴别方法的统一模型

在此,我们采用准则函数式(2-5)进行讨论。首先,给出Foley-Sammon线性鉴别和不相关线性鉴别的统一描述。

Foley-Sammon最优鉴别向量集是满足以下正交条件且使得费希尔准则函数达到极值的一组鉴别向量ϕ1,…,ϕd

具体地讲,该最优鉴别向量集的第一个鉴别向量ϕ1取为费希尔最优投影方向;当前i个鉴别向量ϕ1,…,ϕi取定后,第i+1个鉴别向量可由求解以下最优化问题得到:

这里,Ω表示可行解空间(即最优鉴别向量的取值空间),它对应着原始样本空间RN,即Ω=RN

不相关最优鉴别向量集ϕ1,…,ϕd满足以下共轭正交条件:

不相关最优鉴别向量集的第一个鉴别向量ϕ1取为费希尔最优投影方向;前i个鉴别向量ϕ1,…,ϕi取定后,第i+1个鉴别向量仍可利用模型2-3确定,不过此时模型中的内积定义为:

我们知道,当总体散布矩阵St可逆时,最优鉴别向量集的问题在本书2.2节中已经得到圆满解决。接下来,具体讨论St奇异情况下最优鉴别向量集的求解问题。

2.3.2 压缩映射基本原理

解决问题的总体思想是,在不损失任何有效鉴别信息的前提下,利用映射原理,将高维的原始样本空间变换为低维的欧几里得空间。而在低维的欧几里得空间内,总体散布矩阵是可逆的。这样,我们不仅消除了奇异性,而且大大缩小了最优鉴别向量的搜索范围,即求解最优鉴别向量只需要在低维的欧几里得空间内进行。

首先分析在奇异情况下,可行解空间RN的构成。

β1β2,…,βN表示St的标准正交的特征向量,则RN=span{β1β2,…,βN}。

定义2-1 定义RN的子空间Φt=span{β1β2,…,βm},其正交补空间为,其中,m=rank(St),β1β2,…,βmSt的非零特征值所对应的标准正交的特征向量。

引理2-5A为一个N×N非负定矩阵,ϕ为一个N维向量,则ϕT=0,当且仅当=0。

由引理2-5易得,为矩阵St的零空间。

引理2-6 当矩阵St奇异时,ϕTStϕ=0,当且仅当ϕTSwϕ=0,并且ϕTSbϕ=0。

证明:因为SwSb非负定,故ϕTSwϕ≥0且ϕTSbϕ≥0。

ϕTStϕ=ϕTSwϕ+ϕTSbϕ,所以,ϕTStϕ=0当且仅当ϕTSwϕ=0并且ϕTSbϕ=0。证毕。

定义2-2Jbϕ)=ϕTSbϕJwϕ)=ϕTSwϕ

对于任意φRN,由定义2-1,φ可表示为φ=ϕ+ξ,其中,ϕΦt。映射LRNΦt定义如下:

易证明,L是从RNΦt的线性变换,我们称之为压缩映射,如图2-1所示。

图2-1 压缩映射示意图

定理2-9 (压缩映射原理)在压缩映射Lφ=ϕ+ξϕ下,有

Jf(φ)=Jf(ϕ),J(φ)=J(ϕ)

证明:由引理2-5、引理2-6和的定义可知,ξTSbξ=0,ξTSbϕ=0。

因此,φTSbφ=ξTSbξ+2ξTSbϕ+ϕTSbϕ=ϕTSbϕ

Jbφ)=Jbϕ)。

同理可证,Jwφ)=Jwϕ)。

由定义2-2和准则函数式(2-15)和式(2-16)的定义可知,Jfφ)=Jfϕ),Jφ)=Jϕ)。

定理2-9告诉我们,最优鉴别向量可在子空间Φt内选取,就费希尔准则而言,不损失任何最优鉴别信息。也就是说,根据压缩映射原理,模型2-3等价于

2.3.3 同构映射基本原理

以下我们讨论如何求解模型2-4。

由定义2-1可知,dim(Φt)=m。根据线性代数理论,Φt同构于m维欧几里得空间Rm,相应的同构映射定义为

该映射是从RmΦt上的一一映射。

在同构映射ϕ=下,准则函数Jϕ)变为

定义以下两个函数:

这里,

易证明,均为m阶非负定矩阵,故可视为类似于Jϕ)的一个准则函数。此外,由定义2-1可知,是可逆矩阵,故是正定的。

易证明,同构映射具有以下性质,即定理2-10。

定理2-10 (同构映射原理)设ϕ=RmΦt上的同构映射,则ϕ=是准则函数Jϕ)或Jbϕ)的极值点,当且仅当ξ是准则函数的极值点。

定理2-11 设矩阵P=(β1β2,…,βm),ϕi=iϕj=j,则

(1)ϕ1ϕ2正交,当且仅当ξ1ξ2正交;

(2)ϕ1ϕ2关于St共轭正交,当且仅当ξ1ξ2关于共轭正交。

证明:(1)由已知条件PTP=I(单位阵),故,命题得证。

(2)由于,故结论成立。

在同构映射ϕ=下,模型2-4变换为

根据定理2-10和定理2-11,我们不难得出以下结论,即定理2-12。

定理2-12ξ1,…,ξddm)为模型2-5(令i=1,…,d-1)的最优解,则ϕ1=1,…,ϕd=ddm)为最优鉴别向量集。

更具体地讲,若模型2-5中的约束条件为正交条件,即,由定理2-12所得的ϕ1,…,ϕd为Foley-Sammon最优鉴别向量集;反之,若该模型中的约束条件为共轭正交条件,即,则由定理2-12所得的ϕ1,…,ϕd为统计不相关最优鉴别向量集。

最后,值得一提的是如何高效地计算以上压缩映射中的矩阵P。既然P的列向量β1β2,…,βmSt的非零特征值所对应的特征向量,我们可根据奇异值分解定理,按照本书2.1.4节提供的方法在M维空间内求解,这里M表示训练样本数。

总的说来,与Liu[13]、Guo[15]、Hong[18]和Chen[19]等人的方法相比,我们给出的求解最优鉴别向量集的思想具有明显的优势,即最优鉴别向量集的计算只需要在Rm空间内进行。由于mM-1,而训练样本数M远远小于原始样本特征的维数N,故我们的方法极大地降低了计算量,提高了求解速度。以ORL人脸图像库为例,图像的分辨率为92×112,图像总数为400幅,一般地,训练样本数取为200。在该情况下,我们的求解算法只需要在199维的空间内进行,而Liu[13]、Guo[15]、Hong[18]和Chen[19]的方法则需要在92×112=10 304维的空间内进行,这必然耗费大量的计算时间。

2.3.4 奇异情况下线性鉴别分析的实质:PCA+LDA

由定理2-12所得的最优鉴别向量集可构成以下变换进行特征抽取:

这里,WT=(ϕ1ϕ2,…,ϕdT=(12,…,dT=(ξ1ξ2,…,ξdTPT

从而该变换可分解为以下两个变换:

现考虑变换Y=PTX,既然变换矩阵P的列向量为St的非零特征值所对应的特征向量,故该变换即为PCA变换,且在变换空间(特征空间)内,样本的总体散布矩阵为

因此,该矩阵恰为。类似地,变换空间内样本的类间散布矩阵为。于是,准则函数的物理意义即为PCA变换空间内的费希尔鉴别准则函数。因此,模型2-5确定的最优解ξ1ξ2,…,ξddm)即为变换空间内基于费希尔鉴别准则的最优鉴别向量集。

从这个角度来看,我们不仅对奇异情况下求解最优鉴别向量集的过程有了更深刻的理解,同时也揭示了奇异情况下费希尔鉴别分析的本质,即先进行主成分分析(PCA),再进行普通的费希尔线性鉴别分析(LDA)。

2.3.5 奇异情况下的组合鉴别分析方法

St奇异时,设m=rank(St),β1β2,…,βmSt的非零特征值所对应的标准正交的特征向量,令P=(β1β2,…,βm)。按照本书2.3.4节提供的理论框架,费希尔最优鉴别特征的抽取过程可分为两步进行:第一步,作PCA变换,Y=PTX,将高维的原始样本压缩为m维。第二步,在变换空间Rm内,利用费希尔鉴别分析方法进行特征抽取。

因此,只需要在变换空间Rm内讨论问题。设变换空间Rm内的类间散布矩阵、类内散布矩阵和总体散布矩阵分别表示为。明显地,=PTSbP,且为非负定矩阵,为正定矩阵(必可逆);而且,的秩满足下面定理2-13中的关系。

定理2-13

利用引理2-5、引理2-6和分块矩阵的理论,易证明该定理是成立的。

费希尔准则函数定义为

推广的费希尔准则函数定义如下:

St奇异的情况下,一般地,矩阵St的秩m=M-1。其中,M表示训练样本数;矩阵Sw的秩为M-c-1=m-c,这里c表示样本类别数;矩阵Sb的秩为c-1。相应地,在变换空间Rm内,由定理2-13可得

也就是说,在Rm内,类内散布矩阵往往是奇异的。于是,该情况下的有效鉴别向量分为两类,第一类是满足条件;第二类满足条件。接下来,具体讨论两类鉴别向量的取值范围。

γ1,…,γm的标准正交的特征向量,则Rm=span{γ1,…,γm}。

定义2-3 定义Rm的子空间,其中,γ1,…,γq的非零特征值所对应的标准正交的特征向量,的正交补空间为

定理2-14 在空间Rm内,ξ≠0,则,当且仅当

证明:先证明充分性。

因为为非负定矩阵,由定义2-3和引理2-5可知:

,必有j=q+1,…,m

任意,必可表示为γq+1,…,γm的线性组合,故,则

必要性由定义2-3易证明。

定理2-15 任意ξ≠0,有恒成立。

证明:由的正定性,任意ξ≠0∈Rm,有

,满足,而,故

任意ξ≠0,恒有

定理2-14和定理2-15告诉我们,第一类鉴别向量取值空间为;而第二类鉴别向量只能从集合(Rm-)中取值。明显地,若规定两类鉴别向量之间满足正交条件,则第二类鉴别向量的取值空间为,即为的正交补空间。

1.鉴别准则的优化选择

对于取自空间的任意两个鉴别向量ξ1ξ2,若按照费希尔准则函数的定义式(2-49)来衡量,均有。也就是说,对于第一类的鉴别向量,费希尔准则无法判别哪一个更优,也就失去了鉴别准则的作用。本节借鉴参考文献[19,21]的思想,改用以下准则选取第一类的鉴别向量:

该准则的物理意义是:当投影后的类内散布量为零时,取类间散布量作为衡量投影方向优劣的标准。

式(2-50)中的准则函数等价于以下瑞利商函数:

至于第二类鉴别向量,仍采用费希尔准则函数式(2-49)来衡量。当然,也可采用费希尔准则函数式(2-48)进行衡量,因为当类内散布量不为零时,两准则完全等价。

2.组合最优鉴别向量集的确定

样本往第一类鉴别向量上投影后,其类内散布量为零,这个性质是很好的,故在此我们优先选择第一类鉴别向量。第一类鉴别向量的第i+1个最优鉴别向量可由以下模型确定:

式中,为正交约束条件。当求解第一个最优鉴别向量时,相当于没有该约束条件。由于子空间的维数为l=m-q。因此,令i=0,…,l-1,由模型2-6可确定l个彼此正交的最优鉴别向量ξ1,…,ξl

第二类鉴别向量ξl+1,…,ξd由以下模型确定:

注意,与模型2-6不同的是,在模型2-7中我们取共轭正交的约束条件。也就是说,所得的第二类最优鉴别向量ξl+1,…,ξd是关于共轭正交的。同时,模型中的约束条件表明,两类鉴别向量之间是彼此正交的。

我们可利用2.3.2节中建立的同构映射原理直接求解以上两个模型。接下来,先来求解模型2-6。

作同构映射ξ=P1ψ,其中,P1=(γq+1,…,γm),模型2-6作同构映射后,可得

式中,l=m-q,这里为正定矩阵。

既然目标函数等价于瑞利商函数,由瑞利商的极值性质,那么模型2-8的最优解ψ1,…,ψl的标准正交的特征向量。相应地,由模型2-6确定的最优鉴别向量为ξj=P1ψjj=1,…,l,且为彼此正交的。由同构映射原理可知,它们为准则函数在空间内的极值点。这也是我们为何在模型2-6中采用正交约束的原因。

模型2-7的求解过程完全类似模型2-6。模型2-7作同构映射

ξ=P2ψ,P2=(γ1,…,γq)

可得

式中,

明显地,在映射空间Rq内,是正定的,故此时目标函数完全等价于。也就是说,模型2-9中的目标函数可由代替。

目标函数即为广义的瑞利商函数。由广义瑞利商的极值性质[14]可知,模型2-9的最优解ψl+1,…,ψd(令k=l+1,…,d-1)可取为广义特征方程的前d-l个最大特征值所对应的关于共轭正交的特征向量[22]

由同构映射原理可知,模型2-7所确定的最优鉴别向量集为ξj=P2ψj,(j=l+1,…,d)。它们是关于共轭正交的,且为准则函数在空间内的极值点。

组合最优鉴别向量集的求解过程如图2-2所示。

图2-2 组合最优鉴别向量集的求解过程示意图

组合最优鉴别向量集ξ1,…,ξlξl+1,…,ξd可构成式(2-47)所示的变换,用于最优组合鉴别特征的抽取。