1.1.2 视觉生成方面的技术

在计算机视觉(Computer Vision, CV)中,在深度学习算法出现之前,传统的图像生成算法使用了纹理合成和纹理映射等技术。这些算法基于手工设计的特征,并且在生成复杂多样的图像方面能力有限。随着卷积神经网络(Convolutional Neural Network, CNN)的引入,CV领域迎来爆发式增长。

2013年,提出变分自编码器,尤其是2014年提出生成对抗网络,它们在各种应用中取得了令人瞩目的成绩,成为人工智能领域的里程碑。

随后生成扩散模型如去噪扩散概率模型(Denoising Diffusion Probabilistic Model,DDPM)、DALL·E、Stable Diffusion等也被开发出来,这些模型对图像生成过程进行更细粒度的控制,并能够生成高质量的图像。

Transformer后来应用于CV领域,Vision Transformer(ViT)和Swin Transformer进一步发展了这一概念,将Transformer体系结构与视觉组件相结合,使Transformer能够应用于基于图像的下游系统。