前言

这是一部关于深度学习的原创中文专著。为了使尽可能多的读者通过本书对深度学习能够知其然且知其所以然,作者试图用尽可能统一的数学符号、尽可能少的数学知识以及必要的直观模型来介绍深度学习背后深刻的本质。本书涉及的数学知识主要有优化、概率、统计、代数等方面。从教学科研实践效果来看,大学三年级以上的学生应该已具备这些必要的数学基础知识。因此,本书的核心读者是大学三年级以上的本科生和研究生,以及在企业事业单位从事机器学习、深度学习、数据分析等相关研发工作的工程技术人员。为了能更直观地向读者展示深度学习技术背后的原理,本书使用了不少帮助读者理解的直观模型和简单易懂的例子,比如解释统计语言模型时使用了领导背诵秘书代写稿模型,介绍马尔可夫决策模型的跳蛙模型,介绍角色-评委算法时的教练-学徒模型,讲解围棋AlphaGo和AlphaGo Zero时的作战指挥部模型,介绍卷积网时使用的手写体数字“7”的识别例子,等等。这些直观模型和浅显易懂的例子在增强本书可读性的同时降低了理解深度学习相关技术的门槛,这为理工科学生和工程技术人员之外的其他学生、管理人员以及对技术前沿感兴趣的其他相关人员提供了一个了解深度学习科技前沿的窗口。

本书致力于深度学习的原理和技术细节的介绍,围绕从数据中学习知识这一主线,希望通过一种通俗易懂的方式梳理深度学习技术的整个发展脉络,向读者展示各种技术的来龙去脉,以及它们彼此之间的关系。全书共分为五章:作为搭建深度学习模型的基础,第1章介绍包括线性回归模型、logistics二分类模型、softmax多分类模型等在内的浅层模型,通过这些浅层模型的介绍,读者可从中获得机器学习基本概念以及对这些浅层模型本质的认识。第1章的难点和亮点在于通过对传递函数(连接函数的反函数)进行泰勒展开,解释了传递函数在本质上起到将低维属性空间变换到高维特征空间的作用,读者从中可以理解到为何这些模型均属于“线性”模型范畴。第2章首先介绍三层BP网络,并详细解释多层BP网络中存在的梯度消失或爆炸问题,然后介绍经典的深度网络模型以及避免过拟合的正则化技术。第2章的特色之处主要体现在统一深度网络符号体系基础上,对神经元输入输出端的误差作了概念上的明确区分(上游误差和下游误差)。第3章在介绍卷积公式的直观含义基础上,通过一个简单易于理解的手写体数字“7”的识别例子,清晰地展示卷积网络的原理和技术细节,并通过一个将卷积网络应用于自然语言处理的简化算例展示具体计算过程。第3章的难点和特色之处在于通过柯西许瓦茨不等式解读埋藏在卷积神经网络背后的特征识别原理,理解这个原理是理解整个网络的基石。作为前向神经网络和卷积神经网络在时间序列建模能力上不足的补充。第4章从一个语言模型出发,介绍适合处理时间序列数据的一类网络-反馈神经网络RNNs,以及通过引入门机制来克服RNNs存在的梯度沿时间轴消失或爆炸难题的LSTM网络。第4章的特色之处体现在采用了独有的RNNS和LSTM网络结构图,读者能在明确网络结构图基础上清晰地明确误差信号的流动路径,进而较容易地掌握这两种网络的工作原理。第5章介绍深度强化学习技术。该章首先通过青蛙模型介绍马尔可夫决策过程模型,然后讨论求解马尔可夫决策模型的三类强化学习算法。在此基础上讨论能用来解决实际复杂问题的深度强化学习方法,并介绍了深度强化学习在围棋AlphaGo,AlphaGo Zero等领域的应用。在本书的最后,对深度强化学习的发展现状进行了简要的梳理和回顾。

本书在内容上尽可能深入浅出地涵盖深度学习从基础到前沿知识的各方面,但限于笔者学识,很多重要、前沿的材料可能未能覆盖,即便覆盖到的部分也仅是管中窥豹,更多更深的内容留待读者进一步拓展。为方便有兴趣的读者进一步深入钻研,本书每章后面均列出了相应的参考文献,谨供读者参考。

深度学习是目前最为活跃的研究领域之一,众多原创、前沿的研究成果来自加拿大、美国、德国、日本等国家的研究者。为方便读者在本书基础上进一步阅读文献,追踪国际前沿,也为避免由于本人才学疏浅带来的不准确和不到位,本书对深度学习众多概念和术语的翻译在力求准确的基础上保留了原来的英文用词,且保留大多数国外学者的英文名字,不加翻译直接使用。

深度学习发展日新月异,目前已渗透到各行各业,罕有人能对众多交叉领域均有全面精深的理解。笔者自认乃才学粗浅的无名之辈,仅略知皮毛,更兼时间和精力所限,书中难免有错谬之处,还请读者海涵,若蒙读者厚爱不吝告知,将不胜感激。

陈蔼祥

2018年7月

于广州祈乐苑