2.7 广义矩估计

在实证资产定价研究中,除了多因子模型外,还有很多其他的模型。其中一个重要的模型是由Lucas(1978)和Breeden(1979)提出的基于消费的资产定价模型(Consumptionbased CAPM,CCAPM)。CCAPM的理论虽然优雅,但是模型中消费和资产收益率之间的关系是非线性的,传统的统计学方法在检验该模型时无能为力。在学术界为如何检验CCAPM绞尽脑汁的时候,Hansen(1982)提出了广义矩估计(Generalized Method of Moments,GMM)[1]

GMM是一个非常强大的计量经济学方法,在实证资产定价研究的历史上起到了举足轻重的作用。而如今无论是在经济学领域还是金融学领域,GMM因其数学上的优雅和特性上的强大而被广泛运用,Hansen(1982)也早已成为计量经济学领域被引用量最高的文章之一。虽然GMM最初是被用来检验CCAPM的,但其强大的性能和“标准化”的使用流程使得它可以被方便地应用于检验线性多因子模型(Cochrane 2005的第13章对此有精彩的论述)。为此,作为因子投资方法论章节中的进阶内容,本节对GMM进行介绍。笔者相信,掌握GMM将会帮助读者在未来进行更深入的因子投资研究。

本节的目标是从直观出发揭示GMM蕴含的数学之美。以下行文中试图把公式掰开揉碎讲清楚,从而帮助感兴趣的读者理解复杂公式背后的本质。Cochrane(2005)指出,学习GMM时最大的障碍就是涉及的数学符号繁多。只要搞清楚这些符号,GMM背后的数学精髓其实是非常简单的,因为GMM的核心最终能够归结为计算样本均值的方差(the variance of the sample mean)。希望本节的论述能带给你这种恍然大悟之感。接下来就从样本均值的方差说起。

2.7.1 样本均值的方差

考虑某随机变量ut。假设它在某个样本内的取值为0、-1、3、3、-3。式(2.99)计算出了ut的样本均值ū

ū=ET[ut]=0.4 (2.99)

由于ut是一个随机变量,因此其样本均值ū也是一个随机变量。虽然它在上述样本中的取值为0.4,但假如能够乘坐时光机回到过去“重写历史”,得到不同的样本,那么在不同的样本中,样本均值的取值也会有所变化。假设除样本一(就是上面这个样本)之外,还有三个样本。每个样本中的ut和它们的样本均值ū如表2.5所示。

表2.5 多个样本

既然样本均值本身也是一个随机变量,那么一个很自然的问题就是样本均值在不同的样本中是如何变化的,即求解样本均值的方差。从方差的定义出发有:

式中T为样本量。在最简单的情况中,假设ut序列满足独立同分布,则式(2.100)可以简化成:

将式(2.101)两边开方就得到样本均值的标准误:

式(2.102)的结果大概是各位读者在统计课中学到的印象最深的一个式子——当ut满足独立同分布时,样本均值的标准误。对于金融数据(比如收益率)来说,ut序列有非零的自相关性(即cov(ut, ut−j)≠0),难以满足独立同分布,因此需要得到更一般情况下样本均值ū的方差:

T趋于无穷大时,(T-j)/T趋于1,可以求出var(ū)的渐进形式:

下面再假设一个特殊的情况,即随机变量ut的总体均值E[ut]=0,并利用方差运算的性质var(X, Y)=E[XY]-E[X]E[Y]可得:

上式最后一项中使用S代表了中间项中的求和项。在GMM的术语中,S被称作ut的谱密度矩阵。以上从人们熟悉的样本均值出发指出样本均值本身也是一个随机变量,并推导出当样本量T趋于无穷,且假设E[ut]=0时,样本均值的方差渐进趋于S/T,其中S是无穷级数求和∑E[utut−j]。千万不要小看var(ū)→S/T这个式子,它在下文中介绍GMM的数学推导中起着至关重要的作用。

2.7.2 分析框架

回顾了样本均值的方差之后,本节就来解释GMM到底是怎么回事儿。GMM的作用是为了检验模型,比如模型到底对不对?模型的参数如何估计?误差是来自运气还是因为模型有误?GMM提供了一个优雅而强大的计量经济学框架来回答这些问题。一般来说,GMM框架分为以下三个部分。

• 第一部分:把关注的问题表达成一系列总体矩条件,即提出模型。

• 第二部分:使用样本数据得到对应的样本矩条件,从而对参数进行估计,即把模型和数据联系起来。

• 第三部分:计算参数的标准误(方差),并进行统计检验,即检验模型。

1. GMM第一部分

在接下来的讨论中,令xt代表数据,b代表参数(它们都是向量)。在使用GMM时,将猜想的模型描述成一组关于xtb的函数fxt, b),且当b=b0时如下的矩条件成立:

E[fxt, b0)]=0 (2.106)

式(2.106)左侧的E[fxt, b0)]是总体矩(population moments),而约束(2.106)就是总体矩条件(population moment conditions)。它们表示当猜测的模型正确时,参数和数据应该满足的关系,因此它们就是待检验的原假设。需要说明的是,期望符号E表示对总体求均值;而前面使用的(接下来也将会继续使用的)期望符号ET表示对样本求均值。GMM的第一部分是把研究的问题转化成数据和参数的一组矩条件E[fxt, b0)]=0。

为了加深理解,来看资产定价中的例子。Cochrane(2005)指出资产定价理论都可以归结到一个最基础的式子[2]

pt=E[mt+1xt+1] (2.107)

其中m是随机折现因子(stochastic discount factor,由参数b0决定),xt+1是某个投资未来的回报,pt是该投资现在的价格。因此这个式子说明某个投资未来的回报的现值等于今天的价格。举例来说,令代表无风险资产的总回报,即t期投入pt=1,t+1期得到。将它们代入式(2.107)就得到一个矩条件:

又比如,对于某个通过多空对冲构成的资金中性投资组合(如某个因子或者异象的投资组合),其理论上是靠卖空的资产获得的资金来买入做多的资产,因此该组合的成本是零,即pt=0。令Re代表该组合的超额收益,即xt+1=Re。将它们代入式(2.107)就得到另一个矩条件:

E[mb0Re]=0 (2.109)

式(2.108)和式(2.109)都是资产定价中常见的总体矩条件。将它们放在一起就得到向量的形式:

2. GMM第二部分

GMM的第一部分通过总体矩条件描述了关注的问题,但这些矩条件仅仅是人们对于真实模型的猜想,而人们手里有的只是样本数据。因此,GMM的第二部分就是用样本矩(sample moments)代替总体矩,从而建立起模型和数据之间的联系,以此进行参数估计和检验。根据定义,样本矩可以写成:

上式最后一项中引入符号gT仅仅是为了在下文中简化公式。怎么样?看着式(2.111)有没有什么感想?无论研究的具体问题是什么(比如本书中的实证资产定价,而别人也可以研究经济学或金融学中其他的问题),不管一系列函数f的具体形式长什么样,式(2.111)中的样本矩在数学上的定义都是f在样本内取均值而已,因此它也是一种样本均值。

从样本矩出发就可以进行参数估计。GMM的第一步提出模型时假设总体矩满足矩条件E[fxt, b0)]=0(原假设)。如果原假设成立,那么样本矩在统计上不应显著偏离零。使用样本数据,GMM的核心是找到参数b0的估计,以使所有样本矩都尽可能地等于零:

式(2.112)中之所以用了约等于而非等于,是因为在实际问题中,样本矩的个数往往超过参数的个数(这也被称为过度识别,overidentification)。假设问题中一共有n个矩(即gTn维向量),p个参数(即b0p维向量)。当n>p时,显然无法让所有的样本矩都等于零,因而选择让这其中的p个样本矩或者所有样本矩的p个线性组合等于0。这就是GMM估计量:

上式中a是一个p×n阶矩阵,每一行都代表一个样本矩的线性组合。为了便于理解,仍然用资产定价来举例子。假设CCAPM是正确的资产定价模型。在CCAPM下,随机折现因子m由两个参数b1b2决定,即b0=[b1, b2]′。接下来,假设使用以下四个资产构造四个矩条件来检验CCAPM。这些资产是市场组合、无风险资产,以及Fama and French(1993)中的价值(HML)和规模(SMB)两个因子的投资组合。用表示无风险资产的总回报,用代表其他三个资产的超额收益。在这个例子中,n=4而p=2,因此a是一个2×4矩阵,而GMM估计可以写成:

根据式(2.114)就可以使用样本矩求出参数估计。不过有的读者会有疑惑,因为式(2.114)中并没有说明矩条件的线性组合矩阵a是什么。不同的a显然会得到不同的参数估计。GMM的框架下允许人们任意选择a,然而从计量经济学的角度,有一个特殊的矩阵a会让GMM估计量成为有效估计量(efficient estimator)。

3. GMM第三部分

使用GMM估计得到的仅仅是真实但未知参数b的一个估计。从统计学的角度看,人们同样关心估计的误差,即。对于给定的样本矩gT,从计量经济学的角度看有一个特殊的矩阵a使得最小,这就是有效(efficient)的含义。Hansen(1982)给出了这个a的形式,2.7.4节将对它的含义以及GMM估计的有效性做进一步探讨。

的大小仅仅说明参数估计是否准确,而对于研究的问题来说,人们更加关注的是当给定的大小。在一般的过度识别问题下(即矩个数多于参数个数),样本矩无法全都满足等于零的矩条件[3],因此需要回答的问题是样本矩联合起来相对于零的偏离的大小,并搞清楚样本矩联合起来相对于零的偏离是因为运气成分还是因为选择的总体矩条件(即原假设)是错的。如果仅仅因为运气(即偏离很小),那么可以接受原假设——比如接受一个资产定价模型;如果不是因为运气(即偏离很大),就只能拒绝原假设。唯有有了,才能够进行统计检验并决定接受或拒绝原假设。计算并进行统计检验就是GMM的第三部分。

Hansen(1982)中的定理3.1指出,当样本量T趋于无穷大时,满足以下渐进正态性:

式中-1表示求逆,′表示转置,所以(ad−1′表示先求ad的逆矩阵,再转置。Hansen(1982)给出了渐进分布成立需要满足的一系列假设。在实际应用中,应牢记的是数据xt需要满足弱平稳性,这是因为GMM的基础是随着T的增大,样本均值向总体均值收敛。

此外,Hansen(1982)中的引理4.1指出满足如下渐进正态性:

式中In阶单位阵。式(2.115)和式(2.116)中的a就是样本矩的线性组合权重矩阵,但以上还未说明dS是什么。接下来2.7.3节会把它们的含义说清楚。式(2.115)和式(2.116)中正态分布的方差的表达式看似无比复杂,但它们本质上也都离不开2.7.1节介绍的样本均值的方差。

一旦有了的分布,便可以对GMM第一部分中提出的模型进行检验,从而决定是接受还是拒绝它。以资产定价为例,矩条件代表了给定定价模型下不同资产或投资组合的定价误差α,人们关心这些定价误差联合起来是否为零。有了样本矩的分布,可以构建相应的检验统计量。如果检验统计量超过给定显著性水平的阈值,就可以拒绝该资产定价模型。

总结一下,本节介绍了GMM的三个部分,其中:

• 第一部分把关心的问题表述成一组总体矩条件;

• 第二部分用样本矩代替总体矩从而把样本数据和模型联系起来,并进行参数估计;

• 第三部分计算,并进行统计检验,决定是否接受第一部分提出的模型。

2.7.3 数学基础

本节的目标是解释如何计算。了解本节的内容可以更好地理解GMM背后的数学之美。先说式(2.115)和式(2.116)中的S,这是核心。首先回顾一下gT的定义(式(2.111)):

gT求方差就得到var(gT)。由gT的定义可知,无论函数f长什么样子,样本矩gT的数学形式都仅仅取平均,即gT其实就是fxt, b0)的样本均值,因此var(gTb0))就是对一个样本均值求方差,即样本均值的方差。利用2.7.1节的式(2.105)可以很容易推导出,当T趋于无穷时的var(gT):

利用式(2.117),定义S如下:

它是一个n阶矩阵(在实际情况中,它可以用样本数据来估计)。式(2.117)的计算中之所以能把方差和协方差写成E[XY]的形式,是因为原假设下的总体矩条件约束E[fxt, b0)]=0这里预期符号E没有下标T,表示总体期望。

需要强调的是,式(2.117)给出的是var(gTb0)),即样本矩gT在真实参数b0下的方差。而为了检验模型,人们关心的是gT在估计。然而,一旦有了var(gTb0))=S/T,计算就变得容易了。首先看看如何计算。将b=b0中进行一阶泰勒展开:

式中一阶偏导数∂gTb0)/∂b′的分母中∂b右上角有一个转置符号。在计算偏导数时,gT是一个n维向量(n个矩),而b是一个p维向量(p个参数),因此偏导数运算将会得到一个矩阵,这类运算属于矩阵微积分(matrix calculus)。当转置符号出现在分母时,得到的偏导数矩阵是n×p矩阵,即每一行代表一个矩,这种排列方式被称作分子布局(numerator layout)或雅可比布局(Jacobian formulation)。

接下来,定义矩阵d如下:

式中第一个等价符号是d的定义,而第二个等式意味着在实际应用中用样本矩和来计算d(Cochrane 2005)。Hansen(1982)指出,当T趋于无穷大时,依概率收敛于E[∂fxt, b0)/∂b′]。这个一阶偏导数矩阵正是式(2.115)和式(2.116)中的d。用d代替∂gTb0)/∂b′代入式(2.119)并进行简单的代数运算:

对上式的两边直接求方差就可以得到。值得一提的是,式(2.121)右侧的(ad−1a是系数矩阵,而gTb0)的方差已由式(2.117)给出了——正是S/T。因此有:

下面如法炮制,通过一阶泰勒展开,利用var(gTb0))求解

由于已经在式(2.121)中求出,因此只需把它代入式(2.123)就可得到:

两边同时求方差得到

上式中的第二个等式仍然利用了var(gTb0))=S/T这一结果。式(2.125)表明,其实是var(gTb0))乘以某个系数矩阵得到的,这个系数矩阵是单位阵I减去dad−1a。从直觉上说,gTgTb=b0时的方差var(gTb0))要小。这是因为在GMM估计时用到了样本矩gTp个线性组合,并令它们等于零——=0——从而求出的的过程中,这些约束条件“消耗”掉了样本矩的一些变化,导致

无ˆ论是求解,式(2.119)和式(2.123)中的一阶泰勒展开操作虽然非常“热闹”,但它们其实都仅用了统计学中的delta方法(delta method)。因此,虽然公式看似复杂,但是它们实质上只是利用了样本均值的方差(S/T)和delta方法而已!就是这么简单。有了,就可以得到样本矩的渐近分布式(2.116)。

下面回到GMM关注的问题:检验模型。如果原假设成立,那么样本矩联合起来不应该显著地偏离零。这可以通过构建如下的χ2-统计量进行检验:

将式(2.125)中的表达式代入式(2.126)最终得到:

其中χ2-统计量的自由度是用矩的个数减去参数的个数,即n-p,这是因为在计算的时候用掉了p个自由度。同时,这也意味着不是满秩的,因此式(2.127)中对其求逆实际上是在计算它的伪逆矩阵(pseudo-inverse)。

总结一下本节。以上用了大量的文字和推导把背后的数学含义呈现给读者,是希望这个过程能帮助各位加深对GMM的理解。站在数学符号的角度来说,虽然这些公式看上去很复杂(又是转置、又是求逆),但当使用GMM时,只需提供它需要的矩阵a、样本矩条件gT及矩阵dS,剩下的“无脑”交给GMM就可以计算出各种想要的统计量并进行检验,非常方便。如今,各种编程语言的统计包更是能够方面地实施GMM。

2.7.4 有效性

2.7.2节曾给出了GMM估计量如下:

其中ap×n矩阵,每一行都代表样本矩的某个线性组合。本节关心的问题是,如何选取矩阵a?回答这个问题应从业务和统计两方面思考。从金融学原理出发,尤其是针对资产定价问题,可以选择一些业务含义最重要的矩,让它们或它们的线性组合等于零。另外,单从统计上说,Hansen(1982)给出了一个特殊的a,它能确保得到的GMM估计量是有效的(efficient GMM estimator),即在给定的样本矩gT下,该特殊的a使得最小。这个特殊的a为:

a=d′S−1 (2.128)

这个a到底有没有什么更直观的含义?别急,先来验证一下a的阶数。由d的定义式(2.120)可知,它是一阶偏导数矩阵,且在计算时遵循分子布局。由此可知,d的阶数是n×p,而d的转置d′就是p×n矩阵。事实上,d′同样也是一阶偏导数矩阵,只不过这次转置运算出现在分子上,即。它的运算则遵循的是分母布局(denominator layout)或黑塞布局(Hessian formulation),通常表示求梯度(gradient)。此外,由S的定义式(2.118)可知它是n阶矩阵。因此由a=d′S−1可知a的阶数确实是p×n

下面就来看看a=d′S−1的含义。为了解释它,就不得不提GMM估计量的另一个表达式:

式中W是半正定权重矩阵(weighting matrix)。式(2.129)的含义是,在过度识别问题中,既然无法让所有的样本矩gT都等于零,那么就让这ngT的范数的加权之和尽可能地接近零,以此来确定。正如可以在式(2.113)中随意选择矩阵a一样,在式(2.129)中可以随意选择权重矩阵W。然而,从估计量的有效性来说,最优的权重矩阵满足W=S−1。这从统计上非常好理解:对于一组矩gT,人们希望它们(非负)加权之和最接近零。使用W=S−1S的逆矩阵(别忘了S/T是var(gTb0)))相当于给误差大的矩更低的权重、给误差小的矩更高的权重。换句话说,人们更愿意相信那些误差小的矩并使用它们来得到尽可能准确的参数估计最低,这也就是“有效”的含义。将W=S−1代入式(2.129)并求其一阶条件有:

怎么样,看着眼熟不?式(2.130)中括号里的第一项正是d的转置d′,第二项是S−1。这两项放一起d′S−1正是特殊的a的表达式(2.128)。由此也可以推导出式(2.113)和式(2.129)这两种GMM估计量表达式的关系:

GMM估计量式(2.129),令

上述推导说明这两种GMM估计量表达式是等价的。无论如何选取权重矩阵W,都有一个与之对应的a=dW矩阵。当矩阵a或权重矩阵W取统计上最优时,以及χ2-统计量的表达式均可以大大化简。Hansen(1982)给出了它们的形式:

需要强调的是,上述简化后的表达式只有当a=dS−1W=S−1时才成立。如果aW取别的值,则需使用2.7.3节中相应的公式。很多关于GMM的资料中默认W=S−1,并给出了这些统计量的简化形式,在使用时应搞清楚前提条件。

在实际估计中,一方面必须先有才能估计S,并计算W=S−1(或最优的a);但另一方面只有使用S−1才能得到有效估计。这似乎又是一个“鸡生蛋、蛋生鸡”的问题,在实际中往往采用两阶段法:(1)第一阶段取W=I单位阵,估计出;(2)第二阶段使用上述估计S,令W=S−1进行再一次估计得到新的。当然,如果愿意,使用者也可以把上面的第二阶段迭代多次,得到最终的。以上就完成了关于GMM的全部介绍。

2.7.5 不应成为黑箱

GMM如此强大,再加上现在各种编程语言(R、Stata等)都能方便地计算,这种便捷性似乎把人们都惯坏了。人们习惯于把问题描述成矩条件后一股脑塞进GMM并仅从统计的角度选择W=S−1得到有效估计。这么做十分危险。GMM的强大之处在于它不仅仅是一个计量经济学工具能用来做检验,更重要的是它足够灵活从而可以让人们研究真正关心的经济学或金融学问题。这种灵活性体现为可以从先验出发去定义最适合待研究问题的矩阵a(或W),而不是无条件地选择W=S−1

以2.7.2节中资产定价的例子来说,它有4个矩和2个参数,待检验的模型是CCAPM。从经济学业务出发可以选择如下的

在选择矩阵a时,令市场超额收益和无风险资产完美满足两个样本矩条件,并由此进行CCAPM的参数估计,求出两个参数。同时,使用另外两个资产的超额收益来检验CCAPM。由GMM框架可知,最终的χ2-统计量的自由度为2(因为一共4个资产,2个被用来估计参数),因此实际上的检验正是HML和SMB两个因子在CCAPM下的定价误差联合起来是否显著偏离零,从而判断接受或拒绝CCAPM。这个例子说明,从金融学原理出发选择合适的aW能够回答最重要的问题。GMM的强大之处正在于此。

纯从统计学的角度来说,选择W=S−1确实能够得到有效估计量。但不要忘记,这个有效性是以给定的样本矩为前提的——如果换了或者添加了更多的矩,则参数的有效估计量也会发生变化。在金融市场中,有无数的资产,包括股票、债券、外汇、商品等,还有无数的投资组合,这些资产可以构成无数的矩。如果一味地追求有效性,则应把这成千上万资产的矩都塞进GMM。但显然,从业务的角度来说这么做毫无意义。在研究资产定价的时候,应该使用业务含义最重要的资产,并用它们去检验定价模型。毫无疑问,GMM非常强大,但在资产定价的研究中不应追求使用GMM进行一个仅在统计上正式但模型却缺乏含义的统计检验。GMM的强大在于它让人们从经济学和金融学原理出发,去找寻最合理的模型。不要让GMM成为计量经济学的黑箱。

[1]Lars Peter Hansen在提出GMM之后又对其进行了一系列必要的扩展,包括工具变量选择(Hansen 1985)、连续时间模型(Hansen and Scheinkman 1995)、其他GMM估计量(Hansen et al.1996)以及非最优权重矩阵下的GMM(Hansen and Jagannathan 1997)等。Hansen也因为这一系列突出贡献,于2013年和Eugene Fama和Robert Shiller一起分享诺贝尔经济学奖。

[2]关于这个式子的论述,详见公众号“川总写量化”的文章《理解资产价格》以及本书附录A。

[3]如果样本矩的个数n等于参数个数p,则不存在过度识别问题,可以令所有矩都等于零从而求出全部p个参数。