- 洞察AIGC:智能创作的应用、机遇与挑战
- 李海俊
- 10字
- 2024-12-28 12:32:49
第2章 AIGC背后的智能
2.1 AIGC技术源—生成式AI
2.1.1 生成式AI发展历程
在一百多年前的工业革命中,机器和工厂技术将人类劳动自动化的程度不断提高,改变了生产方式,而AI进一步提高了制造车间的效率(1)。同时,在相同的时间范围内,技术本身也经历了多次迭代,包括最近的数字化和智能化。在最近几年,互动性的工作如客户服务生硬、低效的互动令用户抓狂,甚至引起了大众的诸多抱怨。目前峰回路转,生成式AI有力地改变了现状,虽然对于客户来说,它还是同样的智能客服,但能够以一种接近人类行为的方式承担互动性劳动服务,它能够理解语境与上下文信息。当然,这并不是说这些工具是为了在没有人类输入和干预的情况下工作,在许多情况下,它们与人类结合起来是最强大的。
生成式AI也正在将技术推向一个被认为是人类思维所特有的领域:创造力。该技术利用其输入(它所摄取的数据和用户提示)和经验(与用户的互动,帮助它“学习”新信息和什么是正确/不正确)来生成全新的内容。为了区别于人类,我们将生成式AI的创造力称为机器创造力。虽然在可预见的未来,关于AIGC是否真的可以产生人类般的创造力的争论将持续发酵,但大多数人认为,这类工具通过展现更多更接近人类的思考与处理方式,向世界释放出更多的创造力。如图2-1所示,对于描述一个由AI生成的城市,我们在脑海中甚至是没有概念的,然而机器却能给出一些有趣的视觉概念。
图2-1 描述“AI生成的未来城市”的插图
资料来源:Midjourney
生成式AI作为一个新的概念,在2014年开发的生成式对抗网络(GANs)、2017年的转化器和2021年的对比语言图像预训练(CLIP)等技术的基础上已经存在了一段时间。该技术在2022年爆发,因为模型在训练和服务方面的性能和成本效益大大提高,其产出也有很大的改善。具体来说,机器学习在感知和优化任务上早已超越人类,但最近的生成式AI模型也突破了认知障碍:如何理解数据和信息并在上下文中理解它们。这创造了许多人所说的“AI的寒武纪大爆炸”。更进一步,这项技术被带到了我们所有人面前:开放式AI在短时间内为消费者提供了免费的工具(DALL·E、ChatGPT等),吸引了我们的注意力和想象力。虽然今天的市场并不大,只有80亿~100亿美元,但吸引投资者的是市场的预期增长,到2030年将超过1200亿美元(Grand View Research)。
这个历程大致可以用四个阶段来总结(见表2-1),第一阶段是8年之前基于小模型的生成式AI,随着算力与算数的提升,2015年开始了模型规模化的竞赛,这场竞争带来了2022年更好、更快的结果,关键是随着摩尔定律的前行,生成式AI的使用成本极大地降低,使科技产品成为唾手可得的随身工具,它嵌入在移动端的App中,可以随时使用。在2023年,生成式AI发展更为快速,模型访问趋向于免费和开源,这使更多厂商涌入生成式AI市场以开发面向不同细分领域的产品,可以预见应用市场的井喷将催生出颠覆式的应用。
表2-1 生成式AI的发展历程
资料来源:Generative AI: A Creative New World
ChatGPT则是AIGC发展浪潮中的一个爆点,要想真正了解AIGC,必须了解其技术源——支撑AIGC实现的智能中心——生成式AI,而AIGC是生成式AI的一种应用形式或场景。生成式AI可以通过深度学习等技术从海量的数据中学习出规律和特征,并且可以基于这些特征来生成新的数据或内容,即我们所说的通过训练模型来自动生成数据、图像、视频、音频、文本等内容的技术。在实际应用中,生成式AI技术可以用来生成多种类型的事物,除了我们熟知的AIGC可应用于艺术创作、音乐创作、游戏设计等领域,带来更加出色的创意产出效果之外,生成式AI还可以广泛应用于高科技领域,例如设计一颗芯片、一个发动机、一幢创新建筑等。在工业领域,AI广泛应用于计算机辅助建模与工艺参数调优,而现在也可以应用于模型和最佳参数组合的生成,并在模拟的环境中测试生产提升的程度。AIGC作为生成式AI的一部分,在不同程度上利用了机器学习、深度学习等技术来进行创意产出,是人工智能技术在创造性领域的重要应用之一。
从两者的功能来看,生成式AI一直为AIGC的发展提供技术动力,它是建立在GPT3/4或稳定扩散等大型模型之上的。随着这些应用程序获得更多的用户数据,它们可以对其模型进行微调,以便为它们的特定问题空间提高模型质量/性能,同时减少模型大小/成本。我们可以把生成式AI的应用程序,例如AIGC的工具——ChatGPT,看作一个用户界面层(AIGC工具)和“小脑”(生成式AI),它位于大型通用模型这个“大脑”之上。
从表现形式上来看,生成式AI应用程序在很大程度上是作为现有软件生态系统的插件存在的,微软Office 365 Copilot就是一个典型的例子。其他的应用还有很多,例如代码完成发生在IDE中,图像生成发生在Figma或Photoshop中,甚至Discord机器人也是将生成式AI注入数字/社会社区的容器。还有数量较少的独立的生成式AI网络应用,例如用于文案写作的Jasper和Copy.ai、用于视频编辑的Runway,以及用于笔记的Mem。对相对独立的软件来说,插件可能是一个有效的棋子,这意味着AIGC一夜之间可以拥有百万级甚至更多的用户,这种反馈汹涌澎湃而来,在给用户带来便利的同时,需要快速地优化和迭代模型,实现“更多鸡生更多蛋,更多蛋又孵出更多鸡”的良性循环。AIGC获得海量的用户来改善模型,但同时又将优势模型用来服务,以吸引更多的用户。这种以大型软件作为插件使用的分销策略,在部分市场类别中得到了丰厚的回报,如消费者与社会服务。
在交互范式上,大多数生成型AI演示都是“一劳永逸”的:你提供一个输入,机器反馈一个输出。我们通常保留认为不错的结果,放弃那些看起来并不准确的内容结果。这种情况正在得到好转,越来越多的模型正在迭代,用户可以用持续的输出来修改、完善、提升和产生更优的结果。例如,生成式AI的产出被用作原型或初稿,AIGC应用程序则擅长反馈出多个不同的想法,让创意过程得以持续进行,直到用户满意(例如,标志或建筑设计的不同选项)。它们也很擅长提出需要由用户进行微调以达到最终状态的初稿(例如,博客文章或代码自动完成)。随着模型变得更加智能,在部分依赖用户持续输入更多数据的前提下,这些草案正变得越来越好,直到可以作为最终产品,让用户满意并使用。
图2-2从另一个视角展示了基本模型的进展及基于这些模型生成的应用的发展过程,并对2030年的发展做了预判。事实上它完全有可能发展得更快,因为摩尔定律并没有放缓。但同时,我们注意到,图2-2在2023年、2025年、2030年后面打了一个问号,说明这种预判可能是不确定的。我们认为AIGC到2030年甚至更长远的时间内完全超过人类是不可能的。一方面,人类智能不会停滞不前,而是在不断进化。如果说机器正在不断学习人类智能,那么人类当然也更加擅长学习机器智能并融合这种智能。另一方面,人类可以创造AI,当然也可以利用AI来打败AI,这同样证明人类智能始终要高于机器智能。
图2-2 基本模型的进展及相关应用成为可能的时间表
资料来源:红杉资本
从人类自身的智能进化来说,最新的一项研究表明:人的智能比AI进步得更快,AI未必能超过人。《新科学家》(New Scientist)报道,研究者经过数年追踪和对比专业围棋手和围棋AI的水平提升情况,结果发现人的进步幅度比AI要大、要快。围棋是源自中国的一种传统娱乐游戏,棋盘由19条横线和19条竖线组成,两棋手各执黑白棋子,轮流将一枚棋子放置于横竖线交叉点上,最后以棋子所占面积大小论输赢。2016年以前,围棋AI还不能确保击败人类最高水平棋手,但是到了2017年5月,名为“阿尔法狗”(AlphaGo)的围棋AI击败了所有接受挑战的人类棋手。为了研究人类的智能,香港城市大学的科学家收集和分析了1950年至2021年70年间580万步专业围棋棋手的落子数据,并使用一种名为DQI(Decision Quality Index,决策质量指数)的方法来衡量下围棋时每落一个棋子的好差程度,以及评判某一落子是否为“新招”,进而分析围棋水平的提升幅度。科学家发现,1950年至2015年间,在AI没有完胜人类棋手之前,人类棋手的进步幅度不大,DQI基本摇摆于–0.2~+0.2;相反,在2016年后即围棋AI开始胜过人类的消息传出之后,2018年至2021年间人类棋手的DQI指数一跃升至0.7,而且人类棋手表现出更多的“新招”。《新科学家》中一篇文章写道,从DQI评测数据看,人类棋手下棋水平到2018年的提升幅度达88%。美国加州伯克利大学计算机学家斯图亚特·卢塞尔(Stuart Russell)曾对围棋棋手的水平提升表示:这不必惊讶,因为人为了挑战机器,就会想方设法研究出对机器而言没有验证过的棋招。
从人类通过AI打败AI来看,也有一个非常有趣的实例。2023年2月,美国一名业余围棋棋手凯林·佩尔林(Kellin Pelrine)击败了AI围棋系统“KataGo”,在没有计算机的进一步帮助下赢得了15局中的14局。这是自2016年AlphaGo在围棋对弈取得里程碑式的胜利以来,人类罕见的胜利。它表明,即使是最先进的AI系统也会有明显的盲点。凯林以“声东击西”的战术击败AI围棋系统“KataGo”,其后按照类似方法连赢14场。然后用同样思路战胜另一款顶级AI围棋系统“Leela Zero”。凯林的胜利是由一家名为FAR AI的研究公司促成的,该公司开发了一个程序来探测KataGo的弱点。在下了一百多万盘棋之后,它能够找到一个可以被业余棋手利用并击败它的弱点。人类击败AI的方法很简单:先是布局一个大的“环形”棋块来包围对手的棋组,然后通过在棋盘的其他区域下棋来分散计算机的注意力。这时,即使AI系统的棋组几乎被包围,它也没有注意到这个策略,但如果换作人类棋手,这种毫无意义的策略很容易被发现和瓦解。这一缺陷表明,AI系统无法真正超越其训练而“思考”,所以它们经常做一些在人类看来非常愚蠢的事情。