1.2.2 监督学习及其功能分类

监督学习是占本书最大篇幅的一类学习方法,也是目前应用最广泛的学习方法,本小节从监督学习的角度对机器学习的各种功能类型再做一些说明。

监督学习从功能上讲,主要有3种类型:分类、回归和排序。

分类是使用最广泛的一类功能(注意,这里的“分类”是指一种功能,与本节前述的机器学习类型的“分类”用了同一个词)。当需处理的对象可分为数目有限的类型时,面对的就是分类问题。例如,垃圾邮件检测中只有两类:垃圾邮件和非垃圾邮件;手写数字识别有10类,示例如图1.2.4所示;动物类型就更多了,一个应用系统往往可支持有限的类型,比如可识别200种动物类型。

图1.2.4 手写数字示例

在分类应用中,式(1.2.1)所表示的样本集中,标注值yi只表示有限的类型,故其只取有限的离散值,例如可以用不大于K的整数表示最多K种类型,也可以用二元向量(一种表示类型的编码方式)表示类标号,这些表示的细节第4章再详述。

在分类问题中,由于只有两种类型的二分类问题有特殊意义,经常专门讨论二分类情况。二分类问题表示简单,原理易于理解且大多数二分类问题很容易推广到多分类问题,故经常以二分类问题作为起点讨论分类算法,然后推广到多分类问题。

很多被称为“识别”或“检测”的问题可归结为分类,例如个人计算机开机的人脸识别,其实就是二分类,识别主人和非主人;家庭智能锁的指纹识别,可识别多个家庭成员和非家庭成员,是一个多分类问题。

回归是另一种常用的机器学习功能类型。例如,股票价值预测、对通信信道建模等,其特点是式(1.2.1)的标注yi和式(1.2.2)的模型输出y都是连续值。

一般情况下,人们会选择专门为分类或回归设计的模型,通过样本集学习得到模型表示。有些情况下,为回归设计的算法也可用于分类,反之亦然。有些模型本身既可用作回归也可用作分类,但在不同类型应用中,目标函数选择不同。例如,SVM和神经网络对分类和回归均适用,但对不同类型应用时,目标函数有所不同,学习算法也有相应的变化。

排序学习是随着信息检索的应用发展起来的一种学习方法,模型的输出是一个按照与检索词相关程度排序的列表。限于篇幅,本书不再进一步讨论排序学习,有兴趣的读者可参考文献[26]。

值得注意的是,这里介绍机器学习的各种类型,目的是让读者了解各类方法的特点和逻辑关系,也为后续阅读机器学习文献梳理基本脉络,同时介绍一些常用术语。这个分类是不完全的,甚至有些类型的学习方法不包括在这些分类中。从更高层意义上对机器学习进行分类或对机器学习进行更全面的解释,甚至包括哲学层面或伦理层面,都超出本书的视角和目标。