1.2 随机实验与因果推论

如上文所述,随机实验方法通过随机化的方式保证我们关心的个案与其反事实个案之间无论是在观测到的混淆变量还是在没有观测到的混淆变量上面都可以保证一定的相似性,由此让我们能够将特定的因变量变化的效果归因于实验中的处理变量本身的变化而非其他混淆因素。换言之,随机化地分配被研究个案使我们所关心的因变量Y和我们关心的自变量X都不会受到混淆变量U的影响,因为U在随机化的过程中可以近似地看成一个随机变量,而一个随机变量U是不会和Y与X之间呈现某种统计关联的。

随机实验的另外一个优势在于,通过随机化的方式,我们能够知道因变量在面对不同处理变量的时候所可能呈现的统计分布(distribution)。这里所指的统计分布是非参数性(nonparametric)的,也就是说,我们能够在随机化的过程中得知我们的因变量可能的“经验分布”是什么,而不是像观测性研究中那样需要假定因变量的分布。[8]我们都知道,在一般线性回归中,如果我们没有对因变量的分布进行设定,我们是没有办法进行统计推论的。而在一个完全随机的实验设计中,我们并不需要预先指定因变量的分布一定是服从正态分布或者其他任何分布。相反,我们仅仅从随机化过程中就能够看出我们的研究结论是否站得住脚。那么,我们究竟如何在随机实验中建构因变量的经验分布呢?这里通过费舍尔(Fisher)的精确p值分析来展示这一点(Fisher 1953;Rosenbaum 2002;Salsburg 2002)。

在社会科学的统计分析中,一组最基本的概念是零假设(null hypothesis)与替代假设(alternative hypothesis)。所谓替代假设就是理论所指出的一个假设,而零假设则与之相反。举例而言,一个比较常见的替代假设是大学生的平均工资要高于高中生的平均工资。与之相对应的零假设就是大学生的平均工资和高中生的平均工资处于同一水平(当然,也可以假设相反,即高中生平均收入高于大学生平均收入,只是这个假设不太具有现实意义)。对于这样的零假设和替代假设,一般的社会学研究者并不陌生。然而,需要指出的是,这里的假设都是针对某一个特定的统计量(statistic)而言的。所谓统计量,是指能够反映某种数据特征的函数。在上面的例子中,我们所使用的统计量是均值(即平均收入)。当然,其他的统计量也是可以用来进行假设检验的。例如,我们可以假设大学生收入的变异程度要小于高中生收入的变异程度。那么零假设就变成了大学生和高中生的收入变异程度是在同一个水平上。如果这里用方差(variance)去衡量变异程度的话,那么我们的零假设就变成了不同教育水平下的个体收入在收入方差这个统计量上是相等的。无论采用何种统计量,我们可以发现,统计量总是一个“集合性”的概念,即某个统计量的取值是综合了某一组个体的特征计算出来的。均值和方差是指某个变量在一群人中间的取值上所体现出来的集中程度和变异程度,因此不存在针对一个人的均值或者方差。然而,和这种基于“集合性”统计量的假设检验不同,费舍尔的精确p值分析实际上是在每个个人层面上论述假设检验的问题。在这种情况下,我们又是如何通过随机实验进行因果分析的呢?

这里通过一个例子来进行说明。假设我们关心的是一所初中某个新的教学项目对提升学生学习成绩的效果。现在有6个候选个案(学校、班级或者学生等),按照随机化的方式,其中的3个个案被安排接受这个新的教学项目,而另外3个还是采取过去的旧的教学项目。在经过几个月以后,这6个个案参加了一个考试,考查学生对在过去的这几个月中学习到的知识的掌握程度。假设考试得分的区间是0到100分,那么我们最后的结果如表1-1所示。

表1-1 实际观测到的处理效果

在上面的这个例子中,个案1、个案2和个案4被随机安排接受新的教学项目,而剩下的则接受旧的教学项目。为了判断这个教学项目是否对提升学生学习成绩有明显效果,常规的做法是将接受新项目的个案的考试成绩与接受旧项目的个案的考试成绩进行对比。比如,我们看一下这两组个案的考试成绩均值,便可以发现那些接受新教学项目的个案的平均成绩是(85+92+95)÷3=90.67分,而接受传统旧教学项目的个案的平均成绩则是(81+76+80)÷3=79分。很明显,90.67大于79,这似乎表示新的教学项目相比于旧的教学项目更能提升学生的学习成绩。

回到反事实因果分析框架下,我们就会有一个疑问。那些在旧的教学项目中学习的个人是否能够作为那些接受新的教学项目的个体的反事实个案呢?答案是肯定的。正如上文所述,由于我们的处理变量是教学项目,而这个变量又是随机分配的,因此这里可以认为11.67(90.67-79)分的考试成绩差异缘于新教学项目,因为这6个参加研究的个案在混淆变量(如理解力、学习积极性等)上的取值被随机化的过程控制了。[9]在解决了这个问题之后,我们还有另外一个问题:这个11.67分的考试成绩差异会不会是一个“偶然”的现象呢?正如上面谈到的,在随机实验条件下,因变量的取值变化既可以归因于自变量的取值变化,也可以归因于一个随机事件,或者说“碰巧而已”。换一种表述,由于个案们所接受的教学项目是被随机分配的,那么当我们的教学项目安排不是如表1-1中所展示的方式去分配,而是将这6个个案换一种安排(如接受新的教学项目的学生被安排接受旧的教学项目),会不会这种11.67的分值差异就会消失不见了呢?当我们的随机安排改变了以后,那些接受新的教学项目的学生的平均成绩会不会和接受旧的教学项目的学生一样甚至比他们更差了呢?对于这个问题的回答需要建立起关于因变量(考试成绩)的经验统计分布,而这则依赖于费舍尔的强零假设(strong null hypothesis)。

上文已经指出,费舍尔的精确p值分析是在个人层面上论述假设检验的问题。而所谓的强零假设是指我们在个人层面上建立零假设而不是针对某个集体层面的统计量来建立零假设。具体而言,在上面的例子中,我们的零假设是:新的教学项目是没有作用的。因此,强零假设认为“每一个人”无论是在新的教学项目组还是在旧的教学项目组,他们的成绩都是不变的。如果用T=1指代某个个体被分配在新的教学项目组,T=0指代被分配在旧的教学项目组,Y指代考试成绩的话,这里的强零假设就是:针对每一个人而言,Y(T=1)=Y(T=0)。不难发现,强零假设之所以被称为一种强假设,是因为它在个人的层面上而不是在均值或者方差这样的“集合性”统计量层面上来建立零假设。[10]从这种强零假设出发,我们可以认为新的教学项目是无效的,而且是对每个人都“完全”无效。

和我们常规的假设检验步骤一致,我们需要根据强零假设建立一个因变量的经验分布,然后观察我们的个案在因变量上的观测值在这个基于强零假设建立起来的分布上所处的位置。如果处在尾部,那么我们观测到的效果就不是一个随机事件,而是切实地反映出了某种因果性的处理效应。但是和常规的假设检验不同的是,我们这里不是基于零假设建立一个常规的正态分布、t分布等分布形态,而是基于强零假设建立一个非参数性的因变量分布形态。具体而言,我们会将在这6个个体中间所有可能的分配处理效应的方式都一一列举出来。比如说,我们接受新的教学项目的个体可以不再是1、2和4,而有可能是3、4和6。在这种情况下,我们就会有如表1-2所示的一种情况。

表1-2 一种替代性安排处理变量方案下的处理效果

在表1-2中,我们看到教学项目安排有了新的排列,考试成绩却没有变。和表1-1相比,个案1、个案2、个案3和个案6的考试成绩用括号括了起来。这是因为这些数字是根据费舍尔的强零假设建构起来的。换句话说,我们真正观测到的数据是表1-1所示的数据,但是在强零假设下,每个人被假设在接受另外一个处理水平的时候(即那些本来接受了新的教学项目的学生“如果”接受的是旧的教学项目的话),他们的考试成绩(亦即反事实)是和观测到的考试成绩一样的。正是因为这样,我们才能够用观测值来填充括号。那么,在表1-2所示的这种排列处理变量水平的情况下,我们的处理效果又会是多大呢?和上面一样,我们比较一下两个项目中被研究个体的平均考试成绩之差,得到(81+95+80)÷3-(85+92+76)÷3=85.33-84.33=1分。

我们知道,在6个个体中间分配这两种处理变量水平(新的教学项目和旧的教学项目)一共有20种分配方法,因变量的分布就可以按照这20种分配方法建立起来。具体而言,这20种分配方法如表1-3所示。

基于这20种排列,我们分别可以得到因变量在新的教学项目和旧的教学项目中的分布情况以及均值的组间差异分布。其图形表示如图1-1所示。

图1-1(a)是依据随机化的标准,按照强零假设建立起来的分布。而(b)则是这种强零假设分布下的组间均值差异。和常规的假设检验一样,这里我们要看观测到的组间考试分数差异(11.67)是否处于这个经验分布的尾部位置。如果观测值是尾部取值,则意味着我们观测到的组间差异按照一个完全随机化的情况来看是极其罕见的,从而我们就拒绝了我们观测到的处理效果是一个随机现象这一结论。也就是说,我们所观测到的处理效果确实代表了某种真正意义上的实质处理效果。如图1-1(b)所示,11.67是观测到的组间差值,其的确是处在右边尾部。这样,我们就能够得出结论,按照一个完全随机化的方式建构起来的分布,我们观测到的11.67的组间差值实际上是十分罕见的。换句话说,我们也就有证据支持新的教学项目对提高学生的学习成绩的确是有显著效果的。

表1-3 随机分配方案列举

图1-1 处理变量不同安排方式下的因果效果

以上通过一个简单的例子展示了如何通过随机实验来进行因果推断。综合上面的讨论我们可以发现,在费舍尔的精确p值分析中,之所以随机实验能够帮助我们建构一种因果关系,其原因有二。其一,随机化的过程保证了各种可观测到的和不可观测到的潜在的混淆变量都成了一种随机现象,而随机现象本身既不和我们关心的处理变量X相关,也不和我们关心的因变量Y相关。其二,一个完全随机化的实验设计在费舍尔的精确p值分析中意味着我们不需要人为地给定因变量的统计分布(如正态分布、t分布等)。与之相反,我们的因变量分布完全是根据数据建立起来的一个经验分布。由此,我们就能够通过一种假设检验的逻辑来验证我们观测到的某种“效果”是否可以称得上是一种显著性的发现,而非一个随机发生的现象,从而进一步支撑我们给出的因果关系的结论。

正是因为随机实验有如此多的优势,笔者主张,对于社会科学家而言,虽然进行一个完全随机的实验设计是很困难的,但是一旦有机会,应当尽可能地采用随机实验的方式进行研究设计。实际上,很多社会科学家也提出了“自然实验”(natural experiment)概念。这个概念的启示在于,虽然很多时候社会科学研究者难以像医生进行药品研究那样从头至尾地控制和安排我们的研究个体,但是社会自然环境很多时候会为研究者提供一种“自然”的实验环境,研究者则需要尽可能去挖据这种自然状态下的实验环境以求达到一种因果性推论。例如,大学的课程设置变化有可能会影响到学生的学习成绩。假设课程设置的变化从时间t开始。此时,我们就近似地得到了一种自然实验的环境。因为t-1这一届没有经历课程设置变化的学生和t届经历了课程变化的学生是上下届关系,二者的入学条件基本类似(能够进入同一所大学的两届学生在性别比、家庭背景等方面不会有太大差异)。那么,当我们比较t-1届和t届的学生在学习成绩上的差异时,我们实际上无形中控制了诸如性别、家庭背景这样的混淆变量,这是因为这两届学生间隔时间很短,相应的背景性因素是十分近似的。那么,他们的平均学习成绩上的差异就可以归因于课程设置的变化。这样的设计可以说是一种类实验设计(quasi experimental design)或者自然实验设计(natural experimental design)。

需要说明的是,相比于观测性研究,实验设计的方法在社会学研究中不是很常见,因此本书的重点将放在讨论如何通过各种统计模型来利用调查数据建立因果性联系。在这方面,计量经济学中的工具变量(instrumental variable)方法早已经得到了广泛的使用。相关的介绍性文章或者教材可谓汗牛充栋。因此,在本书中,计量经济模型的工具变量方法及其相关的二阶段回归(two-stage regression)、方程组模型(simultaneous equation modeling)等统计技术不再赘述。感兴趣的读者可以参阅伍德里奇(Wooldridge)(2010)、格林(Greene)(2011)等人的经典著作。