- AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型
- 吴茂贵
- 632字
- 2024-08-22 11:15:09
1.3.3 生成模型的目标函数
参数化建模的目标就是找到最合理的参数θ′,最大化数据集χ观测值的似然性。这种参数估计的方法称为极大似然估计。
由此可得,生成模型的目标函数就是最大化数据集χ的对数似然:
在生成模型中,概率分布p(x;θ)中的x往往是高维的,它对应的分布往往很复杂,求其解析解不现实。不过,任何一个数据的分布都可以看作若干高斯分布的叠加。如图1-6所示,生成样本的模型pdata由两个高斯分布叠加所得。
要求生成模型pmodel或p(x;θ),这里参数集为{αk,μk,σk},k=1, 2,代入目标函数,可得:
由于对数中含有连加,无法直接求出其解析解,需要另辟蹊径。但我们可以采用迭代方法,如EM算法(详细内容可参考第13章)、变分推断、GAN、扩散模型(Diffusion)等来近似目标函数,后续章节将详细介绍这些方法。
观察数据如果是高维的,其背后的分布往往非常复杂,而且因为高维,其样本数据显得非常稀疏。在这种情况下,如何有效地学习到观察数据背后的规则或分布就显得非常重要,其中涉及一个核心概念——表示学习。表示学习也是深度学习的重要内容,更是生成模型的核心内容之一。
图1-6 两个高斯分布叠加可得pdata分布
当分布难以计算时,在一些算法中也经常使用最大化证据下界(Evidence Lower BOund, ELBO)来近似最大化logp(x)。在变分推断中,我们的目的是寻找一个qθ(x)去最小化KL散度,根据推导我们发现DKL=-ELBO+logp(x),而p(x)不依赖于qθ(x),因此寻找最大化KL散度等价于最小化ELBO。而由于先验分布和似然分布的形式较为简单,ELBO的计算是较为容易的,具体推断过程可参考第13章。