2.2 AIGC背后的人类智能

生成式AI已经可以做很多事情了,它能够产生文本和图像,跨越博客文章、程序代码、诗歌和艺术作品。它背后的重大突破是大型语言模型(LLMs)。这些模型的基本思想是学习预测下一个单词在所需输出响应中的概率,其依据是前面的单词的上下文。LLMs有三个特点:首先,它们中的许多都依赖一种叫作Transformer的神经网络架构,这使它们能够关注输入数据的多个部分。这使模型能够捕捉到文本不同部分之间的长期依赖和关系,这对于生成真正听起来像人类的自然语言输出至关重要。它们的第二个特点是,能够有效地处理大量的训练数据。在机器学习中,用来训练模型的数据越多,模型的表现就越好。挑战在于,许多传统的机器学习模型使用监督学习技术,要求输入的训练数据极其干净,并有明确的注释,而创建干净和有注释的训练数据需要人工去努力。LLMs通常需要利用无监督学习技术,这使它们能够从大量的非结构化数据中学习。这意味着建立这些模型的数据科学家不需要浪费时间仔细准备他们的数据,他们只需把能收集到的数据倾倒进去——ChatGPT是在一个从互联网上收集的数据集上训练的,总共约有3000亿个单词,然后让模型在数据中发现模式(单词共现、语义关系、语法等),而不用明确告诉它这些模式是什么。第三个特点是,LLMs背后的基本理念可以在不同的数据类型中得到推广。以图像为例,与LLMs可以通过无监督学习来预测单词的正确序列一样,类似的模型(如视觉——语言预训练)也可以用来预测图像中像素的正确序列。这些图像生成模型比文本生成模型的计算量更大(图像中的像素比文章中的单词多得多),但它们产生了惊人的结果。

一旦你创建了底层LLM,就可以为一个特定的任务校准你的预训练模型,例如创建一个可以从简单的文本输入生成中英文诗歌的应用程序。这种完善可以使用一种叫作监督微调的技术来完成,在这种技术中,你可以使用较小的标记数据集在一个新任务上训练你的预训练模型,或者可以使用一种叫作人类反馈强化学习(RLHF)的技术来完成,在这种技术中,预先训练好的模型产生一个输出,然后由一个实际的人对其进行反馈(正确或不正确),而模型则结合这些反馈,反复地改进其输出。这两种技术经常结合使用,这比最初的无监督学习需要更多的人工努力,但它们对于让生成式AI工具的模型通过“最后一公里”并产生类似于人类的输出是至关重要的。

LLMs于2017年在谷歌大脑开始使用,最初用于翻译单词,同时保留上下文。从那时起,大型语言和文本、图像模型在领先的技术公司中激增,这就像技术神仙们在打群架:包括谷歌(BERT和LaMDA)、Facebook(OPT-175B、BlenderBot)和OpenAI(GPT3/4用于文本,DALL·E 2用于图像,Whisper用于语音)。在线社区如Midjourney及HuggingFace等开源供应商也创造了生成模型。这些模型在很大程度上受大型科技公司局限,因为训练它们需要大量的数据和计算能力。例如:GPT3最初是在45兆字节的数据上训练的,并采用了1750亿个参数来进行预测,GPT3的一次训练就花费了1200万美元。“悟道2.0”模型(4)则拥有1.75万亿个参数。大多数公司没有数据中心的能力或云计算预算来从头开始训练它们自己的模型。但是,一旦一个生成模型被训练出来,它就可以用更少的数据对特定的内容领域进行“微调”。这导致了BERT的专门模型——用于生物医学内容(BioBERT)、法律内容(Legal-BERT)和法语文本(CamemBERT)——以及用于各种特定用途的GPT3/4。英伟达的BioNeMo是一个框架,用于在超级计算规模上训练、建立和部署大型语言模型,用于生成化学、蛋白质组学和DNA/RNA。OpenAI发现,只要有100个特定领域数据的具体例子,就可以大幅提高GPT3/4输出的准确性和相关性。图2-4呈现了AIGC技术的发展,整体而言,经历了RNN Seq2Seq和Transformer两个阶段。

图2-4 AIGC的关键技术

资料来源:《ChatGPT是如何工作的?追踪AIGC的演变》,Tonomy,2022