1.3.2 机器学习的一些基本概念

对于以上讨论的元素,给出几个更专业化的名词:输入空间、输出空间、假设空间。

输入空间:可包含所研究对象的特征向量的空间。例如,特征向量x是十维的实向量,则该输入空间是全部的十维实向量空间,该输入空间可包含的对象是无穷的,是无限集合。例如,在第4章讨论的朴素贝叶斯分类中,若x是1000维向量,每个分量只取0、1,这里特征向量能够表示的模式与1000位二进制数相同,即21000,尽管数量巨大,但这是一个有限集合。

输出空间:可以表示模型预测目标的空间。例如,垃圾邮件检测系统,其输出空间只有两个元素,即{垃圾邮件,正常邮件},一个股票预测系统的输出空间则是一维实数域。

假设空间:能够表示从输入空间到输出空间映射关系的函数空间。例如,线性回归模型

其假设空间为将K维向量空间映射为一维实数空间的所有线性函数集合,这个集合有无穷多成员。另一个例子是二叉树结构的决策树(第7章),若树的深度是有限的,且每个节点是由逻辑变量划分的,则全体二叉树的集合是有限成员的。

在具体机器学习算法的介绍中,这些空间往往是自明的,故一般不会给予特别关注,但在机器学习理论中,对各空间往往是有预先假设的,例如假设空间是有限的还是无限的。

在机器学习中,要研究各种模型,有没有一个通用模型对所有问题是最佳的?答案是否定的。Wolp ert给出的没有免费午餐定理(no free lunch theorem)回答了这个问题。定理的结论:对于一个特殊问题,我们可以通过交叉验证这类方法实验地选择最好的模型,然而,没有一个最好的通用模型。正因为如此,需要发展各种不同类型的模型以适用于现实世界的各类数据。

另外一个思考是,对于解决一个实际问题来讲,并不是选择越先进、越复杂的模型越好,模型选择和系统实现的一条基本原理是Occam剃刀原理,该原理叙述为:除非必要,“实体不应该随便增加或设计者不应该选用比必要更加复杂的系统。这个问题也可表示为方法的“适宜性”,即在解决一个实际问题时,选择最适宜的模型。在机器学习过程中,若选择的模型过于复杂,要面对过拟合问题。

维数灾难是机器学习面对的另一个问题,在无约束的条件下,在高维情况若保持样本的稠密性,需要样本数目随着空间维度的增加而呈指数增加。一些机器学习模型复杂度也随着维度增加而快速增加。但当一个模型针对一类特定应用时,高维数据实际集中在高维空间的一个等效低维子空间上,这种情况下可缓解维数灾难的影响,但这与没有免费午餐定理类似,一个模型往往针对一个特定应用有效。