1.2.1 三起两落

从热情高涨的开荒期到首次寒冬。20世纪50年代,在提出图灵测试和举办达特茅斯会议之后,人工智能这一全新的研究方向开始受到全世界研究者的关注。在其后大约二十多年的时间里,人们见证了各式各样的人工智能系统从无到有的开荒过程。在这一时期,大多数研究工作是根据人类自身的经验和事实基础,进行一定的归纳总结,再基于一系列简单的规则和逻辑,设计出针对特定任务的计算机程序。因此在后来很多书籍和论文中,这一时期也被称为“推理期”。1956年,艾伦·纽厄尔和赫伯特·西蒙编写了被称为“史上首个人工智能程序”的Logic Theorist。在当年,Logic Theorist证明了罗素的《数学原理》中的38条定理。1963年,全部52条定理得到证明,其中有一些定理的证明过程甚至比罗素和怀特黑德的原版证明更加优雅。1966年,世界上首款聊天机器人伊莉莎(Eliza)横空出世。她可以说是今天我们习以为常的语音助手(如微软的小冰、苹果的Siri)的鼻祖。伊莉莎可以用英语和测试者进行交谈,甚至可以给人以夸赞和安慰。由于技术的局限性,她在与人类对话中的回应只不过是基于脚本库的关键词匹配结果,当人们与她进行长时间的对话后,很容易发现她的回应技巧。尽管在今天看来这些初步的智能系统不足为奇,但对于那个年代的人们来说,一个没有任何生命力的机器可以证明数学定理、翻译不同的语言,甚至用自然语言直接和人交流是令人难以置信的。

也正是这些惊人的应用让研究人员对人工智能的发展产生了过度乐观的预期,一些从业人员充满野心地预测20年内人类将实现完全的通用人工智能。但是随着研究的深入,越来越多的问题被暴露出来。一方面,基于简单规则的逻辑推理根本无法处理物理世界中纷繁复杂的现实情况;另一方面,尽管时下火热的人工神经网络的理论在当时就已被提出,但当时的计算机算力水平十分有限,远远无法支撑其庞大的训练开销。1973年,英国数学家詹姆斯·赖特希尔(James Lighthill)向英国政府提交了一份关于人工智能发展近况的报告,指出当时的研究技术根本无法支撑起人工智能宏伟的目标,对该研究方向提出了严厉的批评。社会上开始有声音质疑人工智能的研究不过是一场骗局,随之而来的是各国政府经费的急剧缩减。因此在70年代,人工智能的发展迎来了第一个寒冬。尽管如此,仍然有科学家在这一时期坚守在探索人工智能的道路上,在寒夜里举着火把前进。1979年,斯坦福大学发布了历史上第一款自动驾驶车Stanford Cart[2],它可以利用视觉传感器在杂乱的室内自主移动,尽管可能需要花费几个小时才能完成。

从重振旗鼓的发展期到二次寒冬。在20世纪70年代末期,专家系统的出现打破了人工智能领域的第一次寒冬。专家系统通过领域专家给计算机输入一系列的知识以及逻辑推理的规则,从而使之在特定领域能够模拟人类专家进行推理与判断。世界第一个专家系统DENDRAL[3]由爱德华·费根鲍姆(Edward Feigenbaum)、布鲁斯·布坎南(Bruce G. Buchanan)、乔舒亚·莱德伯格(Joshua Lederberg)等人在1965年完成。研究人员将化学和质谱仪相关的知识以及一系列的推理规则输入DENDRAL中,使其能够根据有机化合物的分子式,推断出正确的分子结构,并且其准确度能够媲美人类化学家。由于专家系统在特定领域内的出色表现,研究者开始将其应用在某些领域,如医疗、金融领域等中代替人类专家。1979年,成功开发的地质专家系统Prospector是第一个产生经济效应的系统,并为公司节省了不菲的开销。1993年,美国DEC公司与卡内基梅隆大学联合研发的XCON-R1[4]专家系统更是每年为公司带来近百万美元的收益。这些专家系统的出现,使之前只在实验室“烧钱”的人工智能具有了产生部分实际经济效应的能力。

随着专家系统所展示的经济效应能力,资本重新流向人工智能领域,为人工智能研究注入了新鲜的活力,令其再次蓬勃发展了起来。在此时期,大量研究者专注于探索知识对于人工智能的影响,取得了许多重要成就,例如马文·明斯基提出的框架知识表示理论,以及兰德尔·戴维斯(Randall Davis)提出的大规模知识库构建与维护理论。这些成就为现代知识图谱理论与推荐搜索技术打下了坚实的基础。此外,其他人工智能分支领域也硕果颇丰,如1976年提出的启发式搜索算法与计算机视觉理论体系以及1986年提出的反向传播算法、分布式并行处理等。这些研究都对后续人工智能领域的发展产生了深远的影响。

遗憾的是此次的繁荣也并不持久,大量资本的涌入在为人工智能领域提供燃料的同时也产生了大量的泡沫,使得专家系统的缺点更快地被展现出来。这些专家系统的研发需要投入大量的人力,它们难以升级且只能在特定的场景使用。这些缺点使得专家系统的研发出现了瓶颈,也导致了人们对专家系统乃至人工智能的通用性产生了质疑。到了80年代末期,人工智能领域在美国战略计算促进大会的预算被大幅削减。无独有偶,日本耗资4亿多美元的第五代计算机研发计划也因达不到预期效果而宣告失败,该计划的目标是造出能够像人一样处理各种外界信息的通用人工智能机器。至此,人工智能再次进入寒冬,这场由专家系统带来的人工智能短暂春天落下帷幕,由于在该时期研究者们普遍崇尚知识在人工智能系统中的作用,因此后续研究者们常称该时期为“知识期”。

集腋成裘进入百花齐放的新时代。在人工智能第二次的没落之后,由于缺乏科研经费的支持,只有少数研究者还坚守在人工智能研究领域的前线。他们的努力最终为人工智能领域带来了第三次的飞跃。人工智能的第三次繁荣期被称为“学习期”。通过对人工智能前两次发展的尝试,研究者发现在人类完成通用图像、文本任务,如图像识别、情感分析等方面,难以找到固定的模式,此时简单的知识与规则已无法满足需求,需要让机器从数据中自主学习。2006年,杰弗里·辛顿(Geoffrey E. Hinton)在《科学》杂志上发表论文,提出了具有可行性的深层神经网络模型,该论文被认作第三次人工智能领域崛起的信号。随着互联网产业的崛起,大规模网络数据(如图像、文本、视频等)的获取成为可能,而计算机硬件的发展也为深度学习的繁荣奠定了基础。

2012年,由亚历克斯·克里泽夫斯基(Alex Krizhevsky)和杰弗里·辛顿等人提出的深度神经网络AlexNet在斯坦福大学举办的百万级别ImageNet图像分类挑战赛中一战成名,该网络利用图形处理器(graphics processing unit,GPU)进行快速学习,达到惊人的Top-5准确率84.6%,大幅领先第二名10个百分点。2015年,何凯明(Kaiming He)等人提出残差神经网络(residual neural network,ResNet),首次在ImageNet图像分类任务上展示了超过人类的表现(Top-5识别错误率低于5.1%)。人工智能尤其是深度学习再次吸引了全世界的目光,各大公司、高校和科研院所纷纷成立人工智能实验室,投入大量经费支持相关研究。这其中包括由戴密斯·哈撒比斯(Demis Hassabis)、谢恩·莱格(Shane Legg)等人成立的人工智能公司DeepMind,以及由萨姆·阿尔特曼(Sam Altman)、伊隆·马斯克(Elon Musk)等人成立的OpenAI。我国华为、腾讯、阿里等企业也相继成立了人工智能实验室,力争在人工智能前沿抢占一定的领先优势。深度神经网络出色的(表征)学习能力并不局限于图像识别任务,而是在各行各业多点开花。2016年,由DeepMind公司打造的人工智能系统AlphaGo在曾被断言“人工智能不可能战胜人类”的围棋比赛中以4:1的成绩打败了人类顶尖棋手李世石。同年,机器人设计师大卫·汉森(David Hanson)成功研制了类人机器人Sophia,其拥有硅胶制成的皮肤,能够在智能算法的控制与电机的牵引下做出丰富且自然的面部表情,与人进行正常的语言对答和眼神交流。

自2012年以来的十余年时间里,研究者提出了大量新型的深度神经网络模型,这些模型在诸多极具挑战性的学习任务上取得了巨大的成功。这包括具有强大数据生成能力的生成对抗网络(generative adversarial network,GAN)、具有强大序列表征与关系学习能力的Transformer模型、具有序列-结构解析能力的AlphaFold 2、具有文本到图像生成能力的多模态模型DALL-E 2[5]和Stable Diffusion 2[6],以及具有类人对话能力的ChatGPT[7]模型等。这些模型,如AlphaFold 2,甚至在一些长期困扰人类科学家的基础科学研究领域都取得了重大突破,正在催生大量新型交叉学科研究范式。如今,我们正处在人工智能的第三次浪潮之中,在我们的日常生活中,处处都能发现人工智能的影子,例如大数据音乐、视频推荐、机场/火车站安检口的人脸识别系统等。未来,人工智能技术更新会越来越快,应用也会更加广泛,有望成为推动各领域产业变革和技术创新的主要原动力。