第一节 生成式AI的概念与发展历程

你是否曾经想过,计算机像人一样创造出丰富多样的内容,例如写一首诗、绘制一幅画、演唱一首歌曲,甚至制作一部电影?这些听起来或许令人惊叹,但实际上,一种名为生成式AI的人工智能技术已经能够做到。生成式AI是人工智能的一个重要分支,它利用复杂的计算机算法模拟人类的创造性思维,从而在各个领域生成内容。在本书中,我们主要关注生成式AI如何在多个方面影响教育领域。

本节将简要介绍AI的基本概念,重点介绍生成式AI的发展历程,并展望未来可能的发展方向。

什么是AI

人工智能(Artificial Intelligence,AI)是指让计算机具有类似于人类的智能的技术。人工智能使计算机能够理解、分析、学习、推理、决策、创造和交互等。人工智能可以分为弱人工智能和强人工智能两种。弱人工智能是指使计算机在某个特定领域或特定任务(例如下棋、识别图像、翻译语言等)上表现出超越人类的智能。强人工智能是指使计算机在所有领域和任务上都表现出与人类相当或超越人类的智能,例如理解自然语言、具有自我意识和创造力等。目前,我们所见到的大部分人工智能属于弱人工智能,强人工智能仍处于理论和设想阶段。

什么是生成式AI

生成式AI是指利用计算机算法模拟人类智能,在各个领域创造性地生成内容的人工智能技术。这种技术的核心目标是使机器能够自主生成具有特定形式的输出,例如文本、图片、音频和视频等。生成式AI的典型应用之一是生成式对抗网络(GAN),它能够在计算机图形学、计算机视觉等领域自动生成逼真的图像和视频内容。

为了让非计算机专业的读者更容易理解生成式AI,我们用一个简单的例子来加以说明。假设你想要画一幅风景画,但你不会画画,只有一些素材和参考图片。你可以把这些素材和参考图片给一个会画画的朋友(我们称之为生成器),让他根据你的要求帮你画一幅风景画。但是你不知道他画得好不好,你需要另一个会鉴赏画作的朋友(我们称之为判别器)来帮你评价他画得是否符合你的要求,是否逼真,是否有创意等。通过这样的反复交流和修改,你最终可以得到一幅满意的风景画。这个过程就类似于生成式对抗网络的工作原理,只不过生成器和判别器都是由计算机算法实现的。生成式AI不仅能在绘画领域发挥作用,还能在文学、音乐、设计等领域实现类似的创作。

生成式AI的发展历程

早期实验

生成式AI的最早实验可以追溯到20世纪50年代。在这一时期,人工智能领域的研究者尝试使用计算机生成文本、音乐和艺术作品。例如,1956年,美国计算机科学家John McCarthy和Marvin Minsky在达特茅斯会议上提出了利用计算机进行自然语言处理的概念,为后来的生成式文本模型奠定了基础。1957年,美国数学家John Nash和David Huffman发明了霍夫曼编码(Huffman Coding),为后来的数据压缩和编码技术提供了理论基础。1958年,美国作曲家Lejaren Hiller和Leonard Isaacson使用IBM 704计算机创作了《伊利诺伊第四号交响曲》(后来被重新命名为“弦乐四重奏第四号”,英文名为String Quartet No. 4),它是第一部完全由计算机创作的音乐作品。与本书的其他相关资料类似,感兴趣的读者可以在“文勇图书馆”微信公众号上找到相应的音频文件进行聆听。

《伊利诺伊第四号交响曲》是通过编写算法生成音乐片段来创作的。Hiller和Isaacson利用IBM 704计算机的能力,编写了一系列指令和数学公式,用于生成音符、和声、节奏和整体结构。这部交响曲展示了计算机在音乐创作中的潜力。计算机应用复杂的算法和模式,可以创造出独特而令人惊叹的音乐元素。《伊利诺伊第四号交响曲》以其复杂的和声结构、富有层次感的节奏和独特的音色效果而闻名。

虽然这个实验引发了当时音乐界的许多争议,有些人认为计算机生成的音乐缺乏情感和人类创造力,但这个实验为使用计算机技术创作音乐提供了佐证。它向世界展示了计算机作为一种创造性工具的潜力,并启发了后来无数音乐家和作曲家使用计算机技术来创作音乐。

生成式模型的兴起

到了20世纪90年代,生成式模型开始在自然语言处理、计算机视觉等领域取得显著的进展。例如,1997年,加拿大计算机科学家Geoffrey Hinton提出了受限玻尔兹曼机(RBM),成为深度生成式模型的开创者。2006年,Hinton又推出了深度信念网络(DBN),进一步推动了生成式AI技术的发展。这些模型为我们现在常用的语音助手(如Siri、Google Assistant和Alexa)奠定了基础。这些助手可以理解用户的指令,并生成自然的语言响应,为用户提供信息、设置提醒、预订餐厅等。这种技术在智能家居、手机、车载系统等领域得到了广泛应用,使人们的生活更加便捷。

1998年,美国计算机科学家Yann LeCun等人提出了卷积神经网络(CNN),为后来的图像生成模型构建奠定了基础。1999年,日本计算机科学家Makoto Nagao等人提出了统计参数合成(SPS),为后来的语音合成模型构建奠定了基础。从这个时候开始,计算机视觉有所发展。此外,CNN还开始被应用于面部识别技术。这种技术现在被广泛应用于手机解锁、安全监控,以及社交媒体的标签功能等;同时,还被广泛应用于医疗领域,帮助医生识别疾病图像,例如肿瘤和视网膜病变等。

深度学习技术的突破

自2012年以来,深度学习技术的飞速发展极大地推动了生成式AI的进步。这一时期,研究者成功地将卷积神经网络(CNN)和循环神经网络(RNN)等深度学习技术用于生成图像、音频和文本内容。这一期间的关键突破和对日常生活的影响如下。

2014年,生成式对抗网络(GAN)由Ian Goodfellow等人提出,它使计算机能够生成逼真的图像,极大地扩展了生成式AI的应用范围。例如,现在我们可以在电影、电视和视频游戏中看到逼真的虚拟人物,这些虚拟人物是基于GAN生成的。此外,艺术家也开始使用GAN创作,创造出我们在传统艺术中无法看到的新颖形象。

2015年,谷歌的DeepDream项目实现了让计算机生成梦幻般的图像。这些梦幻般的图像被广泛应用于视觉艺术创作。而且,由于可以生成特殊的梦幻图像,DeepDream也被应用于心理疾病的治疗,如缓解焦虑和压力。

2017年,谷歌的Tacotron项目实现了让计算机根据文本生成自然的语音。Tacotron被广泛应用于语音生成助手,如Google Assistant,让我们的日常生活更加便捷。例如,我们可以要求语音助手播放音乐、设置提醒,甚至预订餐厅。

2018年,OpenAI的GPT-1模型让计算机能够根据给定的上下文自动生成连贯且有意义的文本。GPT-1在新闻编写、文本摘要,甚至写小说或诗歌方面都有广泛应用。此外,该模型还被应用于自动邮件回复和聊天机器人,使我们的在线交流变得更加简便。

当下与未来的发展

目前,生成式AI已经在各个领域展现出惊人的能力。例如,在文本方面,OpenAI发布了GPT系列模型,它可以根据给定的上下文自动生成连贯且有意义的文本;在图像方面,NVIDIA发布了StyleGAN系列模型,它可以根据给定的风格参数自动生成高清晰度的人脸图像;在音频方面,DeepMind发布了WaveNet模型,它可以根据给定的文本或声音自动生成逼真的语音。

自2022年12月以来,生成式AI领域发生了巨大变化。例如OpenAI发布了GPT-4模型,它是目前最大的语言模型,拥有1750亿个参数,可以生成更多样化和高质量的文本。NVIDIA发布了StyleGAN3模型,它是目前最先进的图像生成模型,可以生成更逼真和更多样化的人脸图像。DeepMind发布了DALL-E模型,它是一个基于图像和文本的多模态生成模型,可以根据给定的文本描述生成任意主题的图像。Opera发布了Opera One浏览器,它是第一个集成生成式AI的浏览器,可以根据用户的喜好和兴趣生成个性化的内容和推荐。这些新的技术发展表明,生成式AI正在不断地创新和突破,为人类带来更多便利和乐趣,也为人工智能领域开辟了更多的可能性。

生成式AI仍然有许多具有挑战性的问题需要解决,例如提高生成内容的质量、多样性、可控性等。未来,随着计算能力的提升和算法的改进,生成式AI有望在各个领域实现更高质量的创作。此外,生成式AI还可以与其他人工智能技术(例如推理式AI、交互式AI等)相结合,为人类创造更加丰富的虚拟世界。

对家长说的话

亲爱的家长们:

在本节中,我们了解了生成式AI的基本概念和发展历程,它看似与我们的生活相去甚远,实则已经深深地融入到我们的日常生活中。作为家长,我们为什么需要了解生成式AI呢?我认为有以下几点原因。

首先,理解生成式AI能够帮助我们更好地把握未来的发展趋势。生成式AI已经是当下和未来科技发展的重要引擎。许多行业,包括医疗、教育、娱乐、交通等,都在迅速地接纳生成式AI技术。因此,作为家长,我们需要了解生成式AI的发展,以便辅助孩子更好地规划未来。

其次,随着生成式AI在教育领域的应用日益增多,理解生成式AI可以帮助我们更好地引导孩子的学习。现在,已经有一些学校和在线教育平台开始使用生成式AI来提供个性化学习,以适应每个学生的独特需求。同时,生成式AI也被用来开发更具吸引力的教育资源,比如互动的学习软件和益智类游戏,这些都需要我们家长去理解,进而引导孩子。

最后,理解生成式AI也能帮助我们培养孩子未来所需的技能。在这个以数据和技术驱动的世界,编程、数据分析等技能将变得越来越重要。了解生成式AI可以帮助我们提前规划孩子的教育路径,让他们具备应对未来挑战的能力。

让我们一起参与到这个全新世界的探索中,一起为孩子的未来做好准备。

扩展阅读

1.What is generative AI? The evolution of artificial intelligence

这篇文章介绍了一些流行的AI模型,如ChatGPT和DALL-E,它们分别能够根据文本提示生成流畅的文字和逼真的图像。文章还探讨了生成式AI的工作原理、训练方法、意识问题、计算机智能的极限、人工生成艺术的缺陷、生成式AI可能带来的负面影响以及一些实际应用场景。文章认为,生成式AI是人工智能发展的一个重要方向,但也有潜在的风险和挑战。

2.The History of Generative AI and Its Basic Concept

这篇文章回顾了生成式AI的发展历史,从最早的隐马尔可夫模型和高斯混合模型,到最新的变分自编码器和生成式对抗网络。生成式AI是一种利用算法生成新的数据或内容的人工智能技术,它可以用于生成图像、音乐、文本、视频等。20世纪50年代和60年代,人工智能研究刚刚兴起,主要是基于规则的系统。20世纪70年代和80年代,神经网络开始流行,但受限于计算能力和数据量。20世纪90年代和21世纪00年代,隐马尔可夫模型和高斯混合模型等概率模型成为生成式AI的主流方法,用于语音识别、自然语言处理等领域。21世纪10年代以后,深度学习的发展推动了生成式AI的进步,出现了变分自编码器、生成式对抗网络等新型模型,能够生成更加逼真和多样化的数据。生成式AI在艺术、娱乐、教育、医疗等领域有广泛的应用前景,但也有潜在的伦理、社会和安全问题。

3.A Comprehensive Survey of AI-Generated Content(AIGC):A History of Generative AI from GAN to ChatGPT

生成式AI是一种利用AI模型生成数字内容的技术,包括图像、音乐、自然语言等。生成式AI的目标是使内容创作更高效和便捷,能够快速生成高质量内容。生成式AI从人类提供的指令中提取和理解意图信息,并根据其知识和意图信息生成内容。近年来,大规模模型在AI中变得越来越重要,因为它能够提供更好的意图提取和更好的生成结果。随着数据的增加和模型规模的增大,模型能够学习的领域分布变得更加全面和接近现实,从而能够生成更加逼真和高质量的内容。这篇综述介绍了生成式模型的历史、基本组件,从单模态交互和多模态交互两个角度介绍了AI的最新进展,并讨论了AI存在的一些开放式问题和挑战。

思考问题

1.AI在未来可能带来哪些正面和负面影响?

2.如何确保AI生成的内容符合道德和法律规定?

3.AI在艺术、科学和工程等领域的应用有何异同?

4.如何评价AI与人类创造力之间的关系?