2.1 投资组合排序法

由1.1.2节因子的定义可知,一个因子代表了不同资产收益率的某种驱动力,而该因子的收益率就是这些资产的共性收益。然而在上述定义中,因子是十分抽象的。因子收益率是什么呢?它又如何计算呢?举例来说,股票市场的整体估值水平和股票的收益率密切相关,估值的高低能够影响股票收益率的共同涨跌。又比如,股票市场作为经济的晴雨表,股票收益率的高低又都受到宏观经济好坏(如GDP的高低)的影响。这些例子说明,像估值、GDP这些都可以作为因子来解释股票的收益率,但是如何定量计算它们的收益率呢?为了回答问题,就要用到实证资产定价和因子投资中的一个非常重要的概念——因子模拟投资组合(factor mimicking portfolio)。如果说因子是抽象的,那么因子模拟投资组合就是这个抽象概念的实际载体,它是定量研究和使用因子的出发点。

2.1.1 因子模拟投资组合

因子模拟投资组合是使用股票资产、围绕某目标因子构建的投资组合;该投资组合需满足以下两个条件:

• 条件一:该投资组合仅在目标因子上有大于零的暴露、在其他因子上的暴露为零;

• 条件二:在所有满足条件一的投资组合中,该投资组合的特质性风险(idiosyncratic risk)最小。

以下通过一个假想的例子逐条解读这两个条件。假设有两个因子A和B以及四支股票。表2.1给出了这些股票在这两个因子上的暴露以及它们的特质性风险。接下来按上述两个条件来构建因子A的因子模拟组合。

首先来看一个错误的做法,即按同等资金权重配置股票一和股票二。它们在因子A上的因子暴露都很高,似乎能够反映出因子A的收益率。然而,这种做法之所以错误,是因为这两支股票在因子B上的因子暴露也非常高。因此,由它们二者构成的投资组合的收益率将受到因子A和B的共同影响。这个问题就体现出满足上述定义中第一个条件的重要性:因子模拟投资组合的收益率应该仅由目标因子驱动,而不受其他因子的影响(意味着投资组合对于其他因子的因子暴露为零),这才能纯粹反映出该目标因子的收益。按照这个条件,可以选择按同等资金权重配置股票一和股票三。由于它们在因子B上的暴露取值相反,因此这二者构成的投资组合仅在因子A上有暴露,满足第一个条件。

表2.1 股票和因子暴露及特异风险示意

上面第一条虽然很关键,但是在它的限制下,得到的投资组合并不一定是唯一的。比如同等权重配置股票一和股票三满足第一个条件;类似的,同等权重配置股票一和股票四也满足第一个条件。那么,它们是否都可以作为因子A的因子模拟组合?还是需要进一步取舍呢?这时就要给出第二个条件——因子模拟投资组合的特质性风险最小。该组合的特质性风险由构成它的个股的特质性风险决定。对于多因子模型来说,个股的特质性风险源自个股收益率在时序上的随机扰动,即式(1.5)中的εt。对于一个满足条件一的投资组合,它的收益率由两部分驱动,分别为目标因子和构成该组合的个股的特质性风险。

如果该组合中特质性风险很高,那么特质性风险的影响就会压过目标因子而占主导地位,这会给因子收益率的计算带来较大的误差。换句话说,只有尽可能地排除特质性风险的影响、使得该投资组合的收益中的绝大部分都由目标因子驱动,才能够准确地计算因子的收益率。这正是第二个条件背后的动机。因子模拟投资组合是所有满足条件一的投资组合中,特质性风险最低的。回到上面的例子,在股票一和股票三、股票一和股票四这两个组合中,由表中数据可知,后者的特质性风险要低于前者,因而满足条件二。因此,根据因子模拟组合需满足的两个条件,最终可通过等权重配置股票一和股票四构建了因子A的因子模拟投资组合。

有了因子模拟投资组合,就可以计算因子收益率了。从定义出发,因子模拟投资组合就是针对某目标因子构建的投资组合;在条件一和条件二的约束下,该投资组合的收益率应尽可能地仅由目标因子驱动,因此该投资组合的收益率就是因子收益率。从上面的例子也不难看出,为了构建因子模拟组合,首先需要知道资产在不同因子上的暴露。在因子暴露已知的前提下,人们可以通过不同的方法来构建因子模拟投资组合。在众多方法中,有一个简化的方法在学术界的实证资产定价研究和业界的因子投资中均得到了广泛的应用,它就是投资组合排序法(portfolio sort),简称排序法。

2.1.2 排序法及其检验

大量研究发现,股票的收益率受很多因子的影响。因性质不同,因子又可以被分为不同的种类。以2.1节开篇举的两个例子来说,围绕诸如估值这类股票的财务信息或者量价数据构建的因子代表了最主流的一类因子,它们被称为股票的风格因子(style factor),典型的风格因子还包括市值、盈利、低波动等;而像围绕GDP这类经济数据构建的因子则被称为宏观经济因子。因子的种类远不止风格因子和宏观经济因子两类,上面的例子只是为了说明数据的属性决定了因子的类别。有必要指出的是,本节介绍的排序法是针对风格因子构建因子模拟投资组合的一种简化方法。对于其他类型因子,比如宏观经济因子,该方法并不适用(2.2节会说明如何处理其他类型的因子)。话虽如此,由于风格因子在股票多因子模型中的地位无人能及,这种方法得到了广泛的使用。

前文2.1.1节的例子说明,构建因子模拟组合的前提是知道所有股票在该因子上的暴露。由式(1.3)可知,股票在某因子i上的暴露βi反映的是在控制了其他因子后,该目标因子的收益率变化对股票超额收益变化的影响程度。这意味着首先需要知道因子收益率才能计算因子暴露。而从前文可知,首先需要有因子模拟组合才能计算因子收益率,而因子暴露又是构建因子模拟组合的前提条件。这种矛盾似乎让人们陷入“先有鸡还是先有蛋”的怪圈。排序法最大的优势则在于它舍弃了“因子暴露已知”这个条件,从而绕过了上述“怪圈”。

下面以账面市值比(book-to-market ratio,BM,即市净率的倒数)这个经典的估值指标为例介绍排序法。虽然BM是一个估值指标,但依照学术界的惯例,将通过它构建的因子称为价值因子而非估值因子。本书遵循上述惯例。在排序法中,将股票排序的变量(比如BM)被称为排序变量(sort variable,简称变量)。排序法中最核心的思想是使用个股在该变量上取值的大小来代替个股在该因子上暴露的高低。需要强调的是,该方法并没有假设变量的取值等于因子暴露,也没有假设这二者之间满足某种特定的数学关系。该方法仅假设变量和因子暴露是相关联的。以BM为例,该方法认为高BM的股票在围绕BM构建的价值因子上的暴露更高,低BM的股票在围绕BM构建的价值因子上的暴露更低,仅此而已。在这个核心思想下,人们虽然不知道个股在该因子上的暴露,但是却可以通过变量的高低来代替它,并以此为依据构建因子模拟投资组合。这正是排序法的方便之处。同时,这也解释了排序法为什么仅适用于风格因子。对于其他类型的因子(比如宏观经济因子),由于难以从个股本身的数据出发找到和因子暴露相关的变量,自然也就无法使用这种方法。

前面说完了排序法的核心思想,下面马上来介绍它的具体方法。排序法的英文名字是portfolio sort,它的背后包含了“按变量将股票排序”“把股票依排序分组构建投资组合”以及“定期更新投资组合”三个步骤。

(1)排序:首先确定股票池,并将股票池中的全部股票在截面上按照排序变量(本例中的BM)的取值高低从大到小(或从小到大[1])排序。

(2)分组:按排名高低将全部股票分为L组(依照惯例,一般根据变量取值分布的十分位数将全部股票分成10组,即L=10)。做多排名最高的第一组内的股票,并同时做空排名最低的最后一组内的股票而构建一个多、空对冲的投资组合,该投资组合又被称为价差组合(spread portfolio)。由构建方式可知,价差组合中多、空两头的收益率分别为变量取值最高的1/L股票的收益和变量取值最低的1/L股票的收益,它们的差异就反映了围绕该变量构建的因子的收益率。因此,价差组合正是使用排序法构建的因子模拟投资组合,而价差组合的收益率正是该因子的收益率。需要指出的是,在构建价差组合时,通常要求多、空两个组合的金额相同,即整个因子模拟投资组合是资金中性的[2]。此外,由于多、空两个投资组合都包含多支股票,因此需要为它们选择个股加权方式,其中最常见的是市值加权和等权重。

(3)定期更新:由于个股在变量上的取值并非一成不变的(即代表它们在该因子上的暴露也是随时间变化的),因此需要定期进行上述两步,完成对因子模拟投资组合的更新。学术界通常称上述更新为再平衡(rebalance),且再平衡的频率多为每月或每年。在每期构建了新的因子模拟投资组合之后,计算该组合在当前时刻和下一个再平衡时刻之间的收益率。在时序上如此往复,就得到因子收益率的时间序列。

通过排序法,人们可以方便地构建因子模拟投资组合,计算因子收益率以及由排序法得到的L个投资组合的收益率。一旦有了这些数据,检验因子预期收益率,以及考察L个投资组合收益率的单调性就构成了检验的内容。学术界将上述检验称为投资组合排序检验(portfolio sort test)。下面依次说明这两个检验内容。

投资组合排序检验最重要的目的是检验因子预期收益率。在关于因子的研究中,原假设通常为因子预期收益为零。由第1章的定义可知,因子的预期收益率应该大于零。因此,检验关注的是依据样本数据计算出的因子收益率,能否在给定的显著性水平下拒绝原假设。令{λt}(t=1, 2, ···, T)代表因子收益率时间序列,则因子预期收益率的估计以及其标准误(standard error)s.e.分别为:

其中std(λt)表示λt的标准差。上式说明将{λt}在时序上取平均值就得到预期收益率的估计。有了,便可在原假设下(即λ=0)计算t-值(t-statistic),进行t-检验:

它满足自由度为T-1的t分布。根据t-值和t分布可计算出(双尾)p-值,通过t-值或p-值就能够判定在给定的显著性水平下接受或拒绝原假设。依照学术界的惯例,通常使用0.05和0.01的显著性水平,在大样本下它们对应的t-值阈值分别约为2.0和2.6。因此,一旦样本数据计算出的收益率的t-值高于2.0,就认为该结果在原假设下是显著的[3]。如果原假设(因子预期收益率为零)无法被拒绝,那么被研究的因子就不满足预期收益率大于零的要求,因此t-值是否高于2.0就是一个重要的判定依据[4]。本书第3章到第5章的实证分析中将汇报检验结果的t-值。

除此之外,由于一个好的因子应能够解释个股超额收益的截面差异,因此排序法关注的第二个问题就是依照排序变量高低得到的L个投资组合的收益率是否有很好的单调性,这可以通过计算收益率和排序变量分组的秩相关系数(rank correlation coefficient)来检验。秩相关系数和相关系数类似,不同的是计算时将观测值转换为观测值的排位(rank),因此它考察的是两个随机变量之间的单调相关性。统计学中有多种计算秩相关系数的方法,其中最流行的要数Spearman秩相关系数(以Charles Spearman命名)。将L个投资组合的收益率的高低排位记为Xr、将它们依排序变量的分组的高低排位记为Xg,这二者的相关系数即为收益率和排序变量分组的秩相关系数ρs

从式(2.4)中不难发现,当L个投资组合的收益率随变量分组完美单调递增时,二者的秩相关系数为1;而当这些收益率随变量分组完美递减时,这二者的秩相关系数为-1。

下面仍以BM为例对上述检验进行说明。通过排序法将A股市场中的股票按照BM高低分为L=10组(记为Low,2,···,9,High,其中Low代表BM最低的一组、High代表BM最高的一组),每组内股票按总市值加权配置,每月再平衡[5]。此外,通过做多BM最高的一组(即High组)、做空BM最低的一组(即Low组)构建价值因子投资组合。表2.2给出了对价值因子预期收益率的检验结果,以及这10个投资组合预期收益率的检验结果(这是学术界的常见做法)。从检验结果可知,因子月均收益率为0.88%,标准误为0.47%,t-值为1.85,p-值为0.07,因此可以在0.1的显著性水平下拒绝原假设。

表2.2 BM排序检验结果

接下来,为了从视觉上更好地呈现单调性,图2.1展示了利用BM排序得到的10个投资组合的月均收益率,它们基本随BM的增加而变大。利用式(2.4)计算可知,这10个投资组合的收益率和BM分组的秩相关系数高达0.94(p-值为5.48×10−5),表现出显著的单调性,且收益率和BM取值之间呈正相关。

由于简单易用,排序法在学术界和业界关于风格因子的研究中得到了广泛的应用。值得一提的是,在前文介绍排序法的时候默认的都是使用单一变量对股票排序,因此它也被称为单变量排序(univariate sorting)。但不要忘记,排序法仅仅是构建因子模拟投资组合的一个相对“粗暴”的方法。根据定义,因子模拟投资组合应该在非目标因子上没有暴露,然而排序法却难以控制其他因子的影响,这是它最大的缺点。举个假想的例子,如果高BM的股票全都是大市值股票、低BM的股票全都是小市值股票,那么当使用BM这个单一变量排序的时候,构建的价差组合在无形之中也同时做多了大市值股票、做空了小市值股票。因此,这个价差组合虽然是围绕BM构建的,但其收益率却受到BM和市值的共同影响,因而难以客观评估BM的贡献。为了尽可能排除其他因子的干扰,常见的做法是使用多个变量进行双重排序或三重排序,这些方法统称为多重排序法。

图2.1 按BM排序得到的10个投资组合的月均收益率

2.1.3 多重排序法

1. 双重排序

在多重排序法中,最重要的是双重排序(double sorting或bivariate sorting)。所谓双重排序,即按照两个变量排序并构建因子模拟投资组合。考虑两个排序变量X1X2,将股票按照这两个变量分别划分为L1L2组,一共得到L1×L2个组合。在双重排序时,一处非常关键的细节是使用这两个变量分别独立对股票排序,还是这两个变量在排序时存在先后的依存关系。前者被称为独立双重排序(independent double sorting或unconditional double sorting),或者被称为条件双重排序(dependent double sorting或conditional double sorting)。

首先来看独立双重排序的情况。假设使用两个排序变量分别独立地把股票划分成5组,即L1=L2=5,它们两两取交集一共得到25个投资组合,如图2.2中的P11P55所示。在划分时,最常见的做法是取这两个变量各自的五分位数。这25个投资组合中股票的权重可以采用等权重或市值加权。接下来,通过这25个组合就可以围绕给定的变量构建因子模拟投资组合了。以X1为例,构建的思路和单变量排序一样,仍然是做多在该变量上排名高的股票、做空在该变量上排名低的股票,并满足资金中性。由于采用了双重排序,因此对于变量X2的每一档,都存在一个在变量X1上排名高的投资组合。换句话说,一共有L2(=5)个这样的组合,它们是P51P52P53P54以及P55。类似的,一共有L2(=5)个在变量X1上排名低的组合,它们是P11P12P13P14以及P15。最后,等权重做多L2(=5)个高排名组合、做空L2(=5)个低排名组合,就得到了围绕X1构建的因子投资组合。令Rij,t代表投资组合Pijt期的收益率,则该因子第t期的收益率为:

图2.2 独立双重排序法示例

在独立双重排序中,两个变量的地位是完全对称的,因此很容易就可以得到围绕X2变量构建的因子投资组合,它通过做多L1(=5)个在变量X2上高排名组合(P15P25P35P45以及P55)、做空L1(=5)个在变量X2上低排名组合(P11P21P31P41以及P51)而构成,并满足资金中性。该因子第t期的收益率为:

有了因子收益率的时间序列,就可以像2.1.2节一样如法炮制,计算t-值并检验因子预期收益率。值得一提的是,如果把式(2.5)和式(2.6)中的投资组合收益率重新排列一下,就可以得到另一种等价的形式:

下面以式(2.7)为例进行解读。它表示从每一个X2变量分组i内挑出X1变量排名最高和最低的两组,即R1i,并计算它们的差。然后把一共L2(本例中是5)个取平均,就得到。式(2.7)和式(2.5)的区别是,式(2.5)是对这5个高排位和5个低排位投资组合“先分别取平均、再做差”,而式(2.7)则是将它们两两“先做差、再取平均”。在数学上,这两种方式完全是等价的,而式(2.5)的方式也确实是常见的计算因子收益率的方法[6]。但是,之所以介绍式(2.7)和式(2.8)这种表达式,是因为它们经常被用于对异象的研究中。

在学术界针对美股市场异象的研究中,双重排序法经常被使用。为了检验一个新的异象变量可以获得超额收益,学者们往往用它和已有的因子变量进行双重排序,从而排除已有因子的影响。在进行分析时,学者们除了关心异象收益率之外,还关心在已有因子变量的每组内,该异象变量是否能区分股票收益率的截面差异。回到上面X1X2的例子,为检验能否通过X1构建异象,应考察在每个X2分组内,根据X1划分的L1个分组中最高和最低的组的收益率差异是否显著[7]。在这种情况下就会关心每个-R1i的取值。以上就是式(2.7)和式(2.8)这两种表达式也存在的原因。但再次强调的是,当使用独立双重排序法时,无论使用哪种表达式都不影响的计算结果。

独立双重排序虽然简单,但它也有一个缺点,即独立排序可能导致某些组合包含的股票数目过少。举个例子,假设共有1000支股票,按照X1X2两变量各分为5组,得到25个组合,平均下来每个组合包含40支股票。当X1X2的截面相关性很高时,那么当一支股票在X1变量取值较高时,它在X2上的取值也会较高。这就会造成这两个变量相同的分组中——图2.2中对角线上的组——的股票个数较多,而其他组内(特别是高X1、低X2组以及低X1、高X2组)的股票个数较少。这种分组内股票数量的不平衡将使得最终的因子收益受异常值影响的可能性更高,造成因子收益率的不稳定并且也会影响在实践中的实施[8]。在实际研究因子时,上述缺点虽然存在,但通常不会带来太大的问题。这是因为人们通常不会使用截面相关性高的变量做双重排序。当对参与排序的两个变量的相关性不确定时,可以计算每组内股票的数量。如果全部L1×L2个投资组合均包含足够多的股票,那么就没有太大的问题。

接下来介绍条件双重排序。它与独立双重排序最大的区别是按照给定的顺序先后使用两个变量对股票进行排序。仍然以X1X2两个变量为例。假设先用X1排序将全部股票划分成L1组。接下来,在以上每个组内,再用X2排序把属于该组内的股票进一步划分为L2个组,最终得到L1×L2个分组。从这个例子中不难看出,条件双重排序是考察当X1控制之后,变量X2对股票收益率的影响。反之,如果按照先用X2排序、再用X1排序,那就是在考察控制了X2之后,变量X1对股票收益率的影响。

条件双重分组关心的是当第一个变量被控制之后,第二个变量是否对解释收益率有增量信息。在这种方法中,两个排序变量的地位是不对称的:第一个排序变量仅仅作为控制变量,人们关心的是第二个排序变量和收益率之间的关系,因此只需(也只应)围绕第二个排序变量构建因子并计算因子收益率[9]

在条件双重排序方法中,学术界通常使用以下两种方法为第二排序变量计算因子收益率。第一种方法和独立双重排序法中的收益率公式并无不同。假设X1X2分别为第一、第二排序变量,则围绕X2构建的因子收益率就如式(2.6)或式(2.8)所示(如果需要计算X1的因子收益率,只需将两个排序变量的先后顺序调换)。除此之外,还有另外一种方法。仍以X1X2分别为第一、第二排序变量为例。在这种方法中,将全部L1X2排名最高的组,即PiL2i=1, 2, ···, L1),以及L1X2排名最低的组,即Pi1i=1, 2, ···, L1),分别取并集:

中的全部股票按照市值加权或等权重配置,构成变量X2的多头;将中的全部股票按同样的加权方式配置,构成变量X2的空头。在每一期t,多头组合收益率(记为)减去空头组合收益率(记为),就是在这种方法下围绕变量X2构建的因子的收益率:

这两种计算X2(即第二排序变量)因子收益率的方法虽略有不同,但仔细比较它们不难发现,当每个投资组合中的股票都按照等权重配置时,式(2.6)和式(2.11)则是完全等价的。只有当每个投资组合采用非等权重(比如市值加权)时,这两种方法才略有差异。假设每个投资组合内股票按市值加权配置,当使用式(2.6)时,它多、空两头各自的L1个投资组合仍然按照等权重配置;而当使用式(2.11)时,它首先把所有属于多头和空头的股票都挑出来,然后再按照市值加权配置。

最后值得一提的是,条件双重排序的规则保证了每组内都有足够多的股票。在本节的例子中L1=L2=5,如果假设这5组是按照排序变量的五分位数划分的,那么条件双重排序得到的25个投资组合中有相同数量的股票。在更一般的情况中,两个变量划分的组数可以不同,且每个变量用来划分的分位数也可能有差异,在这时不同组内的个股数量会有差异,但仍然能够保证有足够多的股票。

2. 两点说明

关于双重排序,还有两点补充说明。第一点说明,使用双重排序的目的是排除两个变量之间的相互影响,从而更准确地计算围绕每个变量构建的因子模拟投资组合的收益率。在这方面,条件双重排序比独立双重排序是更好的选择,因为它是在控制了第一个分类变量后、考察第二个分类变量和股票收益率的条件关系。然而,学术界在研究因子时,往往更习惯使用独立双重排序。这可能与最初经典的Fama and French(1993)三因子模型使用了独立排序有关。另外,当研究异象时,为了排除小市值的影响,使用市值和异象变量进行条件双重排序、构建异象投资组合并计算其超额收益也并不罕见。而在这些研究中,两种计算收益率的方法均有使用。举例来说,Bali et al.(2014)在研究尾部风险异象时采用式(2.6)计算异象收益率;而Liu et al.(2019)则使用式(2.11)研究并计算了一系列异象投资组合的收益率。

第二点说明是关于双重排序时两个变量划分的分组数。当学术界研究异象时,当股票池中的股票数量很大时,5×5或10×10都是常见的分组方式。但是当学术界研究因子时,往往采用2×3的划分,且变量之一是股票的市值。这种处理方法也和Fama and French(1993)三因子模型不无关系。由于该文是多因子模型的开山鼻祖,它的很多处理方法对学术界都有着非常深远的影响。Fama and French(1993)在构建规模(SMB)和价值(HML)两个因子[10]时,采用市值和BM进行独立双重排序。在排序时,该文按市值把股票分成了大、小市值两组,按BM把股票分成高、中、低三组,最后两两交集构建了2×3=6个投资组合。这种使用市值和另外一个变量进行2×3划分的独立双重排序在Fama and French(1993)之后得到了广泛的应用,本书第4章会详细介绍。

3. 三重排序

除前面介绍的双重排序之外,近年也有部分研究采用了三重排序(triple sorting)。一个典型例子是Hou et al.(2015)提出的四因子模型。该文从实体投资经济学理论出发推导出预期收益率和投资以及盈利之间的条件关系。此外,考虑到盈利能力和投资效应在小盘股中都更强,为了排除市值的影响,Hou et al.(2015)在构建因子时,使用规模、投资和盈利三个维度的变量进行了三重排序。

排序法及其检验是因子研究中最常见的方法之一。它最大的好处是绕过因子暴露,构建因子模拟投资组合、计算因子收益率。它是通过时间序列回归检验股票多因子模型的基础。在结束2.1节之前,最后再来讨论一个问题:因子命名。

2.1.4 因子命名约定

因子命名本身并无严格的要求。但之所以需要约定一个命名方式,是因为无论是在学术界的研究还是业界的实践中,对同一个因子往往有很多不同的称呼。仍以BM为例。在Fama and French(1993)三因子模型中,两位作者使用BM和市值双重排序构建了一个HML因子。HML是High-Minus-Low的首字母缩写,而其中High代表BM高的股票,Low代表BM低的股票,Minus代表做多前者、做空后者。显然,人们也可以把它称作BM因子——这个名字以构建因子的变量为出发点;又或者把它称为价值[11]因子——这个名字以该变量代表的股票风格(style)为出发点。无论是叫HML因子、BM因子还是价值因子,它们指代的都是同一个因子模拟投资组合、同一个因子。为了本书前后一致性,本小节对书中使用的因子命名方法进行说明。在因子命名时,考虑的因素是命名的方便程度以及名字是否能清晰地传达因子的含义。

首先,本书不采用Fama and French(1993)的命名方法,原因如下。任何一个变量排序都可以把股票分成高、中、低不同的分组,并构建一个High-Minus-Low组合。如果大家都叫HML因子,则无法加以区分。举例来说,在Fama and French(2015)五因子模型中包括使用BM构建的HML因子和使用ROE构建的盈利因子。Fama and French(2015)将ROE和市值一起进行双重排序,并通过做多高ROE的组同时做空低ROE的组构建了该盈利因子。由于High和Low两个词已经被HML因子占用了,Fama and French(2015)则想出了使用稳健(Robust)和疲软(Weak)来代表高、低两个ROE组合,并以Robust-Minus-Weak即RMW为该因子命名。这种做法的优点是,它能体现变量和收益率之间是正相关还是负相关。比如无论是HML还是RMW,都代表变量高取值组和变量低取值组的差异,这意味着BM或ROE和股票收益率呈现正相关。而在Fama and French(1993)中,代表规模的SMB因子是Small-Minus-Big的缩写,它则表示市值和收益率呈现负相关,即小市值股票的预期收益率高于大市值股票。尽管有这一优点,然而一旦人们真正理解了因子背后的原因,就不再需要依靠其命名来暗示变量和收益率的关系。且考虑到这种做法在因子数量越来越多的时候将会对因子命名造成不便,因此本书放弃这种方法。

使用变量本身和使用其代表的风格命名在方便程度上并无太大差异,但由于以下两个原因,本书作者认为后者更合理。首先,如前所述,风格因子在股票市场中占主宰地位。学术界和业界的绝大多数研究都是关于风格因子。因此,风格比变量本身能更清晰地传达出因子所代表的含义。其次,在业界的因子投资实践中,出于稳健性的考虑,往往使用多个指标构建某种风格的因子。比如,业界会同时使用BM和盈利市值比(earnings-to-priceratio,即EP)等多个估值指标构建价值因子。在这种情况下,选择某个指标对因子命名就会以偏概全。

出于上述考量,本书选择以变量代表的风格为出发点对因子进行命名。举例来说,按照本书的约定,将会称使用BM构建的因子为价值因子,使用ROE构建的因子为盈利因子。

[1]排序法的第二步将会通过做多排名靠前的股票、做空排名靠后的股票构建因子模拟投资组合。一般认为因子的风险溢价为正。这意味着在排序时通常从金融学和经济学原理考虑变量和收益率之间的相关性。如果变量和收益率呈现负相关,则往往按变量取值从小到大将股票排序。低波动因子就是这样一个例子。

[2]在针对以美元计价的美股研究中,将其称为dollar neutral。

[3]t分布的对称性可知,如果t-值小于−2.0也可以认为结果在原假设下是显著的。

[4]本书6.1节将介绍学术界的最新研究成果,它们将单个因子检验的t-值阈值提升到3.0以上。

[5]本书的第3章将会详细说明实证分析中的数据处理方式。

[6]比如经典的Fama and French(1993)三因子模型就使用了这种表达式。本书第4章会详细说明。

[7]除此之外,研究人员也会关心每个给定的X2分组下,以X1排序划分的L1个投资组合的收益率是否呈现出很好的单调性。

[8]在某些极端情况下,X1X2的某种分组组合的交集甚至可能为空,即没有任何股票。

[9]Bali et al.(2016)指出在条件双重排序法中为第一排序变量构建因子并计算因子收益率有很大的不确定性。

[10]本书第4章会详细介绍包括Fama and French(1993)三因子模型在内的主流多因子模型。

[11]BM本身是一个估值指标。但因为它常被用在价值投资(value investing)中衡量公司估值是否过高,因此无论是学术界还是业界,通常把它称为价值因子。