1.3.3 生成模型的目标函数_AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型-QQ阅读男生历史网

书名：AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型
作者名：吴茂贵
本章字数：632字
更新时间：2024-08-22 11:15:09

1.3.3 生成模型的目标函数

参数化建模的目标就是找到最合理的参数θ′，最大化数据集χ观测值的似然性。这种参数估计的方法称为极大似然估计。

由此可得，生成模型的目标函数就是最大化数据集χ的对数似然：

在生成模型中，概率分布p（x;θ）中的x往往是高维的，它对应的分布往往很复杂，求其解析解不现实。不过，任何一个数据的分布都可以看作若干高斯分布的叠加。如图1-6所示，生成样本的模型p_data由两个高斯分布叠加所得。

要求生成模型p_model或p（x;θ），这里参数集为{α_k,μ_k,σ_k}，k=1, 2，代入目标函数，可得：

由于对数中含有连加，无法直接求出其解析解，需要另辟蹊径。但我们可以采用迭代方法，如EM算法（详细内容可参考第13章）、变分推断、GAN、扩散模型（Diffusion）等来近似目标函数，后续章节将详细介绍这些方法。

观察数据如果是高维的，其背后的分布往往非常复杂，而且因为高维，其样本数据显得非常稀疏。在这种情况下，如何有效地学习到观察数据背后的规则或分布就显得非常重要，其中涉及一个核心概念——表示学习。表示学习也是深度学习的重要内容，更是生成模型的核心内容之一。

图1-6 两个高斯分布叠加可得p_data分布

当分布难以计算时，在一些算法中也经常使用最大化证据下界（Evidence Lower BOund, ELBO）来近似最大化logp（x）。在变分推断中，我们的目的是寻找一个q_θ（x）去最小化KL散度，根据推导我们发现D_KL=-ELBO+logp（x），而p（x）不依赖于q_θ（x），因此寻找最大化KL散度等价于最小化ELBO。而由于先验分布和似然分布的形式较为简单，ELBO的计算是较为容易的，具体推断过程可参考第13章。