3.1 引言

在实际生活中,可以直接对很多现象和变化进行观测,并得到一系列的观测值。例如气温观测、人体血压或心率监测等。利用这些观测值,可以知道天气的冷暖、血压的高低和心率的快慢。但是,有很多的因素或变量是无法与观测值一一对应的。例如,在室内可以通过测量空气湿度知道天气是否干燥(潮湿)、舒适,但是却无法直接判断室外有没有在下雨。这时,空气湿度是一个可观测量,是否下雨是一个不可观测的随机变量,但两者之间存在着一定的概率关系。

在统计理论中,通常将不可观测到的变量称为隐变量。为了能够挖掘隐变量包含的信息,需要建立隐变量模型,并利用可观测变量的样本对隐变量做出推断。

语音中包含了非常丰富的信息,但是通过麦克风可以直接观测到的只是语音波形。处理语音信息需要将隐藏在波形中的语义信息、说话人信息、情感信息、语种信息、方言信息提取出来,需要采用适当的隐变量模型来对这些信息进行建模,以建立起它们与波形之间的描述关系。因此,隐变量模型在语音信息处理中被广泛应用。

本章将以语音信息处理中广泛使用的高斯混合模型(Gaussian Mixture Model,GMM)[1]、隐马尔可夫模型(Hidden Markov Model,HMM)[2-3]和高斯过程隐变量模型(Gaussian Process Latent Variable Model,GPLVM)[4]为代表,介绍隐变量模型的基本概念和主要研究问题。