2.3 因子暴露和因子收益率_因子投资：方法与实践-QQ阅读男生轻小说网

书名：因子投资：方法与实践
作者名：石川等
本章字数：4655字
更新时间：2024-11-04 18:15:40

2.3　因子暴露和因子收益率

自从Fama and French（1993）提出第一个多因子模型以来，使用排序法构建因子投资组合、计算因子收益率，并通过时序回归确定资产在因子上的暴露便成为学术界的研究范式，本书第4章介绍的七个主流多因子模型均采用此方法。然而，由2.2.3节的介绍可知，通过截面回归可获得因子的纯因子组合，从而得到和排序法不同的因子的收益率。相较于使用排序法构建的因子投资组合，由于纯因子组合在其他因子上没有暴露，因此从理论上能够更准确地体现因子收益率。

在此基础上，近年来出现的新研究趋势是使用时变因子暴露的Fama–MacBeth截面回归计算因子收益率，并以此代替排序法的收益率。在诸多研究成果中，最具代表性的两篇文章要数Jegadeesh et al.（2019）和Fama and French（2020）。这两篇文章都是研究因子收益率的，但侧重点却有所不同。前者关注的是如何更准确地估计因子暴露，进而计算因子收益率；而后者则考察了排序法和回归法之中，哪种方法计算的因子收益率能够更好地解释股票预期收益率的截面差异。这些发现将人们对于因子暴露和因子收益率的理解带上了更高的台阶，也为未来实证资产定价和因子投资指明了方向。本节接下来的内容将综合梳理这些新方法和新发现。

下面回顾一下Fama–MacBeth截面回归，它是一个两步回归方法：

• 第一步时序回归：估计时刻t资产i在所有因子上的暴露。（为了简化符号表达，中没有引入代表时间的下标。在本节的讨论中均假设代表时变的因子暴露。）

• 第二步截面回归：使用作为解释变量，资产的超额收益率作为被解释变量，用OLS对截面回归模型（2.46）进行估计，得到t期每个因子的收益率；在得到整个因子收益率时序后，对因子预期收益率进行检验。

显然，如果没有就无法进行截面回归，因此上述过程的第一步是为了第二步服务。一旦有了，第二步的截面回归就是“例行操作”。由此可知，Fama–MacBeth回归中值得深入讨论的是如何确定因子暴露。由2.2.4的介绍可知，时序回归仅仅得到βi的估计，它属于生成的回归变量，而非真实（但未知）的βi。因此，这种做法存在误差。将作为第二步截面回归中的解释变量就引入了计量经济学中的变量误差（errors-in-variables，EIV）问题。

Fama and MacBeth（1973）自然意识到了这个问题。为此，他们给出的解决办法是使用个股组成的投资组合代替个股作为资产。以检验CAPM为例，该文将个股按照其历史βi的大小构成了不同的投资组合，然后将这些投资组合作为资产。该文指出，当使用投资组合时，个股βi的估计误差会相互抵消，因此投资组合β值（个股βi的加权平均）的估计会更准确，从而在一定程度上降低EIV的影响。

自此以后，在进行Fama–MacBeth回归检验因子时，使用投资组合而非个股作为资产就成了主流做法。但有大佬对此颇有微词，这其中就包括Eugene Fama的学生Richard Roll。Roll和他的合作者在Jegadeesh et al.（2019）一文中指出，将个股按照某种属性分组、构建投资组合作为资产实际上是一种降维处理，投资组合会丢掉很多个股截面上的特征。如果待检验的因子和这些投资组合恰好正交，那么用它们作为资产进行Fama–MacBeth回归是无法发现这些因子的风险溢价的。因此，Jegadeesh et al.（2019）建议仍然使用个股作为资产检验因子，并提出通过引入工具变量（instrumental variables，IV）的方法应对EIV问题。

除此之外，应对EIV问题的另一种方法则显得更加“颠覆”，它干脆舍去了第一步的时序回归，而是直接采用公司特征（firm characteristic）的取值（经必要标准化处理后）作为因子暴露的估计。举个例子，假设考虑围绕账面市值比（BM）构建的价值因子，按照Fama–MacBeth回归的传统做法，应该把个股和该因子收益率做时序回归求出因子暴露；而另一种处理方式是直接使用BM取值，将其进行必要的标准化处理之后作为股票在该因子上的暴露。

这两种选择因子暴露的方法大相径庭。它们之间孰优孰劣呢？它们又如何影响因子收益率的计算呢？这些问题的答案就是本节的内容。接下来先看一看引入工具变量的做法。

2.3.1　引入工具变量

在t时刻，资产超额收益率和因子暴露满足如下截面线性回归模型：

为便于讨论，引入如下数学符号。令以及αt=[α1t, α2t, ···, αNt]′；定义N×（K+1）矩阵；定义（K+1）维向量ζt≡[γt, λ1t, ···, λkt]′。由定义可知，ζt中的第一项是模型（2.47）中的截距项，而后面K项则是这K个因子t期的收益率。使用上述定义，并将全部N个资产放在一起表达，（2.47）变为：

为减少EIV问题的影响，Jegadeesh et al.（2019）在估计模型（2.48）的参数中引入了工具变量，得到ζt的IV估计量：

式中的工具变量。Jegadeesh et al.（2019）使用互不重叠的历史数据分别进行时序回归计算，并指出它们是不相关的，因而能够减少EIV问题。在具体操作中，在每个月末使用过去三年个股的日频收益率和多因子模型的日频收益率进行时序多元回归：

（1）如果当前月是偶数月（比如二月、四月、六月等），则使用过去三年窗口内所有的偶数月之中个股和多因子的收益率进行回归，得到的回归系数就是；使用这三年窗口内所有奇数月之中个股和多因子的收益率进行回归，得到的回归系数作为。

（2）如果当前月是奇数月（比如一月、三月、五月等），则使用过去三年窗口内所有的奇数月之中个股和多因子的收益率进行回归，得到的回归系数就是；使用这三年窗口内所有偶数月之中个股和多因子的收益率进行回归，得到的回归系数作为。

由于模型（2.48）存在EIV问题，所以OLS估计量往往是有偏的（biased）。此外，由于多个解释变量同时存在，因此人们无法确定每个因子的收益率是被高估还是被低估，而式（2.49）所示的IV估计量则是因子收益率的无偏估计。

2.3.2　使用公司特征

虽然使用IV估计量消除了EIV问题，但Jegadeesh et al.（2019）的研究同时指出，通过IV估计量得到的显著的因子收益率也可能源自被忽视的变量偏差，即在截面回归时没有使用构建因子投资组合时使用的公司特征作为控制变量。以规模和价值因子为例，排除变量偏差意味着在使用经回归得到的因子暴露的基础上，同时加入了构建这两个因子的公司变量（即对数市值[1]和BM）共同作为解释变量，进行Fama–MacBeth截面回归。实证结果显示，当排除变量偏差后，仅有公司特征作为因子暴露的因子被定价了，而以时序回归β作为因子暴露的因子并没有被定价。无论采用传统OLS估计量还是新提出的IV估计量，上述结论均成立。

表2.4给出了Jegadeesh et al.（2019）的实证结果[2]。对于IV估计量和OLS估计量，表中分别汇报了三组实验结果。以IV估计量为例，在实验（1）和（2）中，分别仅使用时序回归得到的和公司特征作为因子暴露，计算相应因子的平均收益。结果显示，在这两组实验中，规模和价值因子的月均收益率均显著不为零（实验（2）中规模因子月均收益率为负的原因是当使用ln（市值）作为因子暴露时，小市值的暴露更低）。然而，在实验（3）中，当时序和公司特征被同时选为解释变量后，结果显示以时序回归为暴露的因子的月均收益不再显著。在实验（3）中，以为因子暴露的规模因子的月均收益率t-值仅为-0.42，以为因子暴露的价值因子的月均收益率t-值则是1.88（小于0.05显著性水平下t-值的阈值）。而另一方面，在实验（3）中，以ln（市值）和BM分别作为暴露的规模和价值因子的月均收益率，其t-值分别为-3.93和4.40，在统计上均十分显著。对于OLS估计量，也可以观察到同样的结果，在此不再赘述[3]。

上述结果似乎在向人们传递这样的信息：比起时序回归的，公司特征似乎才是更好的因子暴露。下面将对此进行探讨。

表2.4　Jegadeesh et al.（2019）针对美股的研究结果

注意：本表格汇报了使用不同因子暴露时，相应因子的月均收益率（%），括号内为该预期收益率的t-值。

2.3.3　两类模型

最初，Fama and French（1996）这篇著名的解读Fama and French（1993）三因子模型的文章指出，解释一支股票的收益应关注它和因子之间的时序回归系数，而非公司特征。举例来说，某个BM很低的公司的收益率如果和价值因子的相关系数很高，那么该公司应该被当作价值股，而非成长股。毫无疑问，使用时序回归作为因子暴露则是符合人们认知的，然而实证数据显示的却又是另一个故事。当使用个股作为测试资产时，以公司特征作为因子暴露则“完胜”时序回归得到的：前者能获得显著风险溢价，但后者却不行。

以下从两个不同的角度思考时序回归和公司特征之间的差异：（1）日频收益率噪声较高，使用它进行时序回归得到的因子暴露存在较高误差，使得个股的因子暴露取值在时序上并不稳定。一旦因子暴露在时序上不稳定，就会导致在不同期进行截面回归时，该因子的表现就像随机因子一样，因而难以获得显著的溢价。（2）真实的因子暴露是未知的，而相比时序回归系数，公司特征是未知因子暴露更好的代理变量。基于A股的实证结果[4]显示，当期的公司特征比最新时序回归更能预测下一期股票的收益率。这个结果可以从一定程度上解释为什么仅有公司特征为暴露的因子被定价，而使用时序回归为暴露的因子没有被定价。在某种意义上，它似乎说明公司特征是更好的因子暴露变量，但其背后的原因仍然值得继续深入探索。

既然公司特征相比时序回归是更好的因子暴露，且只有以公司特征作为因子暴露代理变量的因子被定价，那么一个很自然的想法是使用截面回归计算因子收益率并以公司特征作为个股在因子上的暴露，从而也得到一种多因子模型。学术界管这种方法得到的模型叫作“截面多因子模型”。与之相对应的是自Fama and French（1993）沿袭而来的使用排序法计算因子收益率，并通过时序回归计算股票的因子暴露。这种模型被称为“时序多因子模型”。那么，在这两类模型中，谁能更好地解释股票预期收益率的截面差异呢？

Fama and French（2020）回答了这个问题[5]，其核心结论为，比起传统的“时序回归多因子模型”，“截面回归多因子模型”更能解释资产收益率的预期差异，即资产的定价误差更接近零。此外，当使用“截面回归多因子模型”时，因子暴露应使用时变的公司特征，而非恒定的公司特征（比如对于某公司，把它的某个特征在时序上取均值，但这种方法效果并不好）。除此之外，Fama and French（2020）还研究了另一种“四不像”的模型，即使用截面回归计算因子收益率，得到因子收益率序列后再使用股票和因子收益率时序回归计算因子暴露，以取代公司特征。这个“四不像”模型对资产预期收益率的解释能力和“时序回归多因子模型”相似，但却不如“截面回归多因子模型”。这个结果说明，“截面回归多因子模型”优于“时序回归多因子模型”，原因可能源于两点：（1）截面回归的因子收益率优于排序法的因子收益率；（2）时变公司特征相比时序回归是更好的因子暴露代理变量。二者缺一不可。

自Fama and French（1993）三因子模型问世以来，学术界便采用了“时序回归多因子模型”这一传统。而在27年后，如今，Eugene Fama和Kenneth French又通过Fama and French（2020）一文打破了这一传统，引领了今后实证资产定价模型的研究方向。虽然其结果更多地建立在纯粹的实证分析之上，但该文还是清晰地回答了学术界和业界都非常关心的两个问题：到底如何计算因子收益率以及用什么作为因子暴露。从上述结果来看，基于截面回归得到的纯因子组合作为因子投资组合、使用公司特征作为因子暴露在未来或大有可为。此外，“截面多因子模型”也更符合业界的做法（例如Barra多因子模型）。本书第3章将遵循学术界惯例，采用投资组合排序法检验因子，而第4章将使用公司特征作为因子暴露，通过Fama–MacBeth回归检验因子，以帮助读者理解不同方法的差异。

[1]在使用个股的数据进行截面回归时，市值通常会被对数市值代替，以此降低极值的影响。

[2]在原文中，Jegadeesh et al.（2019）在进行Fama–MacBeth回归时还加入了市场因子暴露以及截距项作为解释变量。但由于它们不是此处关注的重点，因而没有被纳入表2.4中。

[3]公众号“川总写量化”的文章《Which Beta?》以中证500的成分股为基准验证了Jegadeesh et al.（2019）的方法，并在A股上观察到了类似的现象。

[4]参考公众号“川总写量化”的文章《Which beta?》。

[5]公众号“川总写量化”的文章《Which Beta（II）?》对Fama and French（2020）进行了详细解读。