1.3.3 生成模型的目标函数

参数化建模的目标就是找到最合理的参数θ′,最大化数据集χ观测值的似然性。这种参数估计的方法称为极大似然估计。

由此可得,生成模型的目标函数就是最大化数据集χ的对数似然:

在生成模型中,概率分布px;θ)中的x往往是高维的,它对应的分布往往很复杂,求其解析解不现实。不过,任何一个数据的分布都可以看作若干高斯分布的叠加。如图1-6所示,生成样本的模型pdata由两个高斯分布叠加所得。

要求生成模型pmodelpx;θ),这里参数集为k,μk,σk}k=1, 2,代入目标函数,可得:

由于对数中含有连加,无法直接求出其解析解,需要另辟蹊径。但我们可以采用迭代方法,如EM算法(详细内容可参考第13章)、变分推断、GAN、扩散模型(Diffusion)等来近似目标函数,后续章节将详细介绍这些方法。

观察数据如果是高维的,其背后的分布往往非常复杂,而且因为高维,其样本数据显得非常稀疏。在这种情况下,如何有效地学习到观察数据背后的规则或分布就显得非常重要,其中涉及一个核心概念——表示学习。表示学习也是深度学习的重要内容,更是生成模型的核心内容之一。

图1-6 两个高斯分布叠加可得pdata分布

当分布难以计算时,在一些算法中也经常使用最大化证据下界(Evidence Lower BOund, ELBO)来近似最大化logpx)。在变分推断中,我们的目的是寻找一个qθx)去最小化KL散度,根据推导我们发现DKL=-ELBO+logpx),而px)不依赖于qθx),因此寻找最大化KL散度等价于最小化ELBO。而由于先验分布和似然分布的形式较为简单,ELBO的计算是较为容易的,具体推断过程可参考第13章。