1.4 应用算例

模式识别在人工智能、计算机视觉、大数据分析和智能机器人等领域具有广泛的应用。本节仅介绍在经典的手写体数字图像识别与人脸图像识别应用中的算例。

1.4.1 手写体数字图像识别

手写体数字图像识别是计算机模式识别领域的一个经典课题。国际上广泛使用的Concordia University CENPARMI手写体数字数据集有4 000个训练样本与2 000个测试样本。图1-1显示了数字0的400个训练样本中的前100个与200个测试样本中的前100个。

在手写体数字识别的研究中,对于二值化图像的表示方法有多种。通过对手写体数字图像作预处理,提取出以下四组图像表示[20,21]:Gabor变换特征XG、Legendre矩特征XL、Pseudo-Zernike矩特征XP与Zernike矩特征XZ。对于这四种图像表示,分别进行线性鉴别分析提取出9维的鉴别特征表示,分别记为XG+LDA、XL+LDA、XP+LDA、XZ+LDA。分别用最小距离、最近邻距离、最大相关、最近邻相关四种分类器对测试样本进行分类识别,识别错误率结果见表1-1。

表1-1 手写体数字识别实验的错误率

从表1-1可以看出,在XG、XL、XP、XZ、XG+LDA、XL+LDA、XP+LDA、XZ+LDA八种图像表示中,基于Legendre矩特征的图像表示具有优势;进行线性鉴别分析后,在分类阶段,如果每个类别只取一个代表,性能极大提升;如果将所有训练样本都取为类别代表,性能可能会稍有下降。

1.4.2 人脸图像识别

人脸识别是信息技术领域的前沿课题[22]。国际上广泛使用ORL人脸图像数据集[23],由40人的400幅图像组成,其中有些图像拍摄于不同时期;人脸脸部表情与脸部细节有变化,例如,笑或不笑,眼睛睁着或闭着,戴或不戴眼镜;人脸姿态有变化,深度旋转与平面旋转可达到20°;人脸的尺度也最多有10%的变化。将图像分辨率92×112逐渐降低到46×56、23×28、12×14、6×7、3×4,可以得到不同分辨率的图像,如图1-5所示。说明,本书分辨率的单位为“像素”,为了简洁起见省略为“n×m”形式。

现将每人10幅图像样本中的前5幅图像用作训练样本,另外5幅图像用作测试样本,则训练样本总数为200,测试样本总数也为200。对于多种分辨率图像92×112、46×56、23×28、12×14、6×7、3×4的像素数据表示,分别用最小距离、最近邻距离、最大相关、最近邻相关四种分类器对测试样本进行分类识别,识别错误率结果见表1-2中的前6行。

图1-5 多分辨率人脸图像

表1-2 在多种分辨率下的人脸识别实验错误率

续表

对于分辨率为6×7、3×4的图像,像素数目分别为42与12,而训练样本数目为200,所以可以进行线性鉴别分析,分别抽取39维与12维的线性鉴别特征,并用最小距离、最近邻距离、最大相关、最近邻相关四种分类器对测试样本进行分类识别,识别错误率结果见表1-2中的后两行。另外说明一下,对于分辨率为12×14的图像,像素数目为168,而类内协方差矩阵的秩为

训练样本数目-类别数目-1=200-40-1=159<168

说明其逆矩阵不存在,不能进行线性鉴别分析。

从表1-2可以看出,高分辨率图像像素之间的信息冗余严重,适当降低图像分辨率可以保持比较接近的识别性能;把图像分辨率降得过低,会影响识别性能;线性鉴别分析能够极大地提升识别性能,采用最近邻距离分类器或最近邻相关分类器,基于6×7人脸图像的LDA表示可以获得不小于97%的正确率。