1.1.1 深度学习的发展

人工智能取得的进展得益于大脑逆向工程[1]。深度学习的概念源于对人工神经网络的研究。分层神经网络模型的学习算法受到了神经元之间交流方式的启发,并依据经验(训练数据)进行改进。深度学习在诸多领域都有惊人的表现,例如,它在棋类博弈、计算机视觉、语音识别及自动驾驶等领域都有非常好的表现。早在2013年,深度学习就被《麻省理工科技评论》(MIT Technology Review)评为世界十大突破性技术之一。

除此之外,更具有划时代意义的案例是,2016年3月世界顶级围棋棋手李世石1:4不敌谷歌公司研发的阿尔法围棋(AlphaGo[1]),这标志着人工智能在围棋领域已经开始赶超人类。2016年年末至2017年年初,AlphaGo的升级版Master(大师)又在围棋快棋对决中连胜60场,一时震惊世人。而深度学习便是支撑AlphaGo的“股肱之臣”[2]

深度学习之所以备受瞩目,是因为在一定程度上改变了机器学习的学习范式(Paradigm)[2]。在传统的机器学习任务中,性能的好坏很大程度上取决于特征工程。工程师能成功提取有用特征的前提条件通常是其已经在特定领域摸爬滚打多年,对领域知识有非常深入的理解。举例来说,对于一条海葵鱼的识别,需要先对“边界”“纹理”“颜色”等特征进行提取,然后经过“分割”和“部件”组合,最后构建出一个分类器。传统机器学习的特征提取如图1-1所示。

图1-1 传统机器学习的特征提取

相比传统的机器学习算法,深度学习避免了复杂的前期预处理(特征提取)。它能够直接从原始数据出发,只经过非常少的预处理,就从原始数据中找出视觉规律,进而完成识别分类任务,其实这就是在深度学习中经常提及的“端到端(End-to-End)”概念。

这里的“端到端”说的是,输入的是原始数据(始端),输出的直接就是最终目标(末端)。整个学习流程并不进行人为的子问题划分,而是完全交给深度学习模型,使其直接学习从原始输入到期望输出的映射。例如,“端到端”的自动驾驶系统,输入的是前置摄像头的视频信号(也就是像素),而直接输出的就是控制车辆行驶的指令(方向盘的旋转角度)。这个例子中“端到端”的映射就是信号→指令。“端到端”的设计范式实际上体现了深度学习作为复杂系统的整体性特征。

再拿海葵鱼分类的例子来说,深度学习的“端到端”学习范式如图1-2所示。在卷积神经网络中,输入层是构成海葵鱼图片的各个像素,它们充当输入神经元,经过若干隐含层神经元的加工处理后,在输出层直接输出海葵鱼的分类信息。在此期间,整个神经元网络的大量权值在巨大算力的驱动下自动调整,而无须人工参与显式特征提取。

图1-2 深度学习的“端到端”学习范式

“端到端”的深度学习能够“让数据说话”。然而,其有利就有弊,这种“混沌”的特征提取方式,即使成功输出了海葵鱼的分类信息,这些权值的意义和可解释性也是不足的。相比传统方法的每一个模块都有较为明确的输出,端到端的深度学习更像是一个神秘的黑箱。在训练模型时,人们往往不知道为何而调参。

人工智能浪潮的兴起可大致归因于以下三点。

(1)大数据。其类似推进火箭的燃料,大数据为人工智能(特别是深度学习)算法的训练提供“原动力”——大量可用的训练数据,而各种深度学习算法的性能提升高度依赖训练数据。

(2)大计算。其类似推进火箭前进的大功率发动机,训练海量的数据也需要各种高性能计算设备的支撑(如GPU或TPU)[3]

(3)大模型。传统意义上的小模型已经难以适应深度学习的场景。从LeNet[4]、AlexNet[3]、ResNet[4]开始,模型参数量迅猛提升,随后BERT网络模型的提出[5]使得参数量首次达到上亿规模,而GPT-3模型[5]参数量更是超过百亿。

其实深度学习模型之所以能有效,其中还有一个非常重要的潜在因素,那就是这些模型能够有效地从欧氏空间数据中提取潜在特征(也可以理解为机器能识别的“知识”)。这既是深度学习成功的原因,也是它难以胜任图数据处理任务的理由,因为图数据属于典型的非欧氏空间数据,这在后面会详细讨论。