第二节心理与教育测量的性质_心理与教育测量（第三版）-QQ阅读男生武侠网

书名：心理与教育测量（第三版）
作者名：戴海崎等主编
本章字数：5422字
更新时间：2023-09-22 12:24:49

第二节心理与教育测量的性质

一、心理与教育测量的定义

根据一般测量的定义，我们可以将心理与教育测量定义为，根据心理学和教育学法则给人的心理特质和教育成就指派数字，或者依据一定的心理学和教育学理论在测验上对人的心理特质和教育成就进行定量描述的过程。与一般测量的定义相比较，心理与教育测量的定义既具有一般测量的共同属性，又具有其独特的特征。

首先，心理与教育测量依据的法则在相当程度上是一种理论，很难达到如同物理测量依据的法则那样普遍被研究者共同接受的科学水平。心理与教育测量学家凭借这些理论来编制测量的工具并完成测量工作。例如，测量学家在编制智力测验时对智力本身的性质存有非常不同的看法，对智力的结构成分也有非常不同的理解。因此，从一种智力测验上得到的测量分数与从另一种智力测验上得到的测量分数可能具有不同的意义。由于所依据的法则不够成熟，即使使用同一种测验测量，所得结果也不像物理测量那样准确和可靠。这种情况在人格测量领域表现得更加明显。

其次，心理与教育测量的对象是人的心理特质和教育成就。教育成就的含义比较明显，是指一个人通过接受教育而获得的知识水平。但心理特质的含义则比较含混，不大能够给予清楚的界定。心理学上通常将“特质”（trait）理解为相对稳定的、对个人的行为具有持久调节作用的心理特征，如智力、兴趣、态度、人格等均可视为特质。但这些特质本身就是很抽象的概念，在测量工作中，将其具体化为可操作的测量对象本身就是一件非常复杂的工作。心理特质显然具有内隐性，我们不可能像测量重量或长度那样直接测量人的心理特质的量，而只能通过测量个人在特定情境中的外显行为来推断他的心理特质。这就决定了心理与教育测量只能是一种间接测量。

再次，心理与教育测量的量尺是由有关领域的专家经过长期的编制、试用、修订、完善而逐渐形成的标准化测验（standardized test），它的编制是一项高度专门化的系统工作，要达到科学所要求的水平绝非易事。

最后，心理与教育测量的目标虽然是对人的心理特质和教育成就进行定量分析，但这种定量分析的精确度远不及物理测量的精确度。这首先是由人的心理特质的高度复杂性所决定的，同时也与目前的测验缺乏令人十分满意的信度和效度有关。

二、心理与教育测量的理论基础

在阐述心理与教育测量的定义的过程中，我们在说明心理与教育测量同一般测量的共同特征的同时，着重强调了心理与教育测量的复杂性和难度。也许正因为如此，人们对心理与教育测量是否必要和是否可能持有怀疑态度。归纳起来，怀疑心理与教育测量的必要性和可能性的理由不外乎两个方面：一是人的心理现象和知识水平是一种主观存在，它的复杂性、流动性和内隐性的特征使人们不可能对其进行直接测量；二是目前的心理与教育测量的技术手段远未达到如物理测量那样准确和可靠。那么，心理与教育测量究竟是否必要和可能呢？对此，我国古代学者孟子早在2000多年前就给予了明确的回答（参见第二章）。但直到20世纪初期，随着心理与教育测量运动的发展，这个问题才真正摆在了测量学家的面前。1918年，桑代克（E.L.Thorndike）曾提出，“凡客观存在的事物都有其数量”。1939年，麦柯尔（W.A.McCall）进一步指出，“凡有其数量的事物都可以测量”。这两个命题被公认为是心理与教育测量的理论基础。

从哲学的观点看，任何事物都是质和量的统一，事物的质的差异是分类的前提，而事物的量的差异则是测量的前提。这里的“事物”不仅指外在的客观现象，而且指人的内在的心理特质。根据这一前提，我们可以认为：第一，人的心理现象和知识水平如同其他一切物理现象一样是有差异的，这种差异不仅包含质的方面，而且包含量的方面。因为有差异，所以有必要测定差异的数量，描述差异的程度。第二，心理特质和知识水平虽然不是物理实体，不能直接测量，但是必须表现于人的外部行为之中，并调节着人的外部行为。因此，通过观测人的外部行为的差异，就有可能测量出人的心理特质和知识水平的差异。第三，心理与教育测量的准确性、可靠性和精确度如同其他一切测量技术一样是相对的，也同其他一切测量技术一样必然随着科学技术的进步和发展而逐步提高其准确性、可靠性和精确度。尽管目前的心理与教育测量的科学性还达不到人们所期望的高度，但测量不准不等于不能测量，目前测量不准也不意味着将来永远测量不准。一百多年来，心理与教育测量学家正是抱着这种信念进行了大量的研究，取得了明显的成效，已经初步形成一套比较科学的测量原理与技术。可以设想，随着研究工作的拓展和深化，心理与教育测量的科学水平将会进一步提高。

三、心理与教育测量的量表

在本章第一节里，我们已经谈到，测量中所使用的单位和参照点的水平不同，就会有不同水平的测量量表。那么，心理与教育测量的量表属于哪一水平呢？从本质上讲，心理与教育测量的量表属于顺序量表。其原因如下：

（1）从所使用的参照点来说，教育测量和心理测量领域的参照点均为相对零点，而非绝对零点。例如，在学期末的学科考试中，通常的做法是把学生的成绩确定在0～100之间。显然，这个“0”是命题人人为假定的测量起点。因为即使某生在该试卷上得了0分，也不能说该生在本学期内没有学到任何知识，或者说该生的知识水平为“零”。在智力测量中，假定某一儿童不会做任何一个题目，那么，他的成绩也为“0”，但这个“0”也并不表示他的智力水平为“零”。这就决定了心理与教育测量的量表不可能达到比率量表的水平。

（2）从所使用的单位来说，教育与心理测量的单位远没有其他测量的单位成熟和完善。一是教育与心理测量所使用的单位的意义不太明确。例如，在各种形式的考试中，虽然使用的单位都是“分”，但实际上，数学考试中的“分”和语文考试中的“分”的意义是不相同的。学生在不同学科上的考试成绩所反映的不是同一个领域的知识水平。二是在教育与心理测量中的单位常常不等值。例如，同一次数学考试，学生做对一道较简单的题目，得到1分，同样做对一道较复杂的题目，也得到1分。从表面上看，前者的1分和后者的1分是等值的。但实际上，它们所反映的学生的知识水平是不相等的。由于单位的意义不同，单位的价值不相等，因此各科的考试成绩不能直接相加而求出总分，也不能根据总分求各科平均分。这就决定了心理与教育测量量表上的度量值不是等距量表上的度量值。然而，无论是考试还是能力测验，不同个体获得的分数具有顺序性，可以比较其大小。例如，同一数学试卷上获得的成绩80、85和90分之间虽然没有绝对零点，也不能认为彼此间的差异量相等，但我们可以对三个分数做出顺序排列：90＞85＞80。所以，它是基于顺序量表获得的度量值。

由于顺序量表的参照点没有绝对零点，而且它的单位不等值，大量的统计方法不能直接应用到顺序量表的分数上去，因此在理论研究和实际应用工作中受到极大的限制。为了克服这些缺陷，心理与教育测量学家希望将从顺序量表上得到的分数转化到等距量表上去解释。也就是说，可以采用统计方法把顺序量表的分数转换到具有相等单位的另一个量表即等距量表上（见第七章和第九章）。目前，对大多数心理与教育测量的分数解释工作是在等距量表上实现的。

四、心理与教育测量中的测验

如前所述，心理与教育测量工作是在测验的基础上完成的，而测验是由有关领域的专家经过长期的编制、试用、修订、完善而逐渐形成的标准化测量工具。对于什么是测验的问题，学术界尚未取得一致的意见，相对来说，被多数测量学家所接受的定义是美国心理测量学家安娜斯塔西（A.Anastasi，1968）提出来的，她认为：“心理测验实质上是对行为样本的客观的和标准化的测量。”根据这一定义，编制一个测验应当具备下列四个基本条件。

（一）行为样本

抽样是测量活动中普遍采用的方法。例如，在水质检验中，检验人员从要检验的水中抽取一小部分样水予以测定，根据对样水的测定结果推断水的整体质量；在医疗验血中，医生也只是抽取很少一部分血样进行测定，并根据此测定结果推断其整体的情况。从整体中抽取出来作为测量对象的样品叫做样本。与上述例子不同，心理与教育测量是间接测量，是通过测量人的外部行为来推断人的心理特质和教育成就的。但是，人的行为具有多样性，要把人的所有行为都作为测量的对象显然是不可能的，也是不必要的。就此而言，心理与教育测量又与上述例子相同，对心理特质的测量也需要取样。事实上，测量学家的做法是从人的大量行为中抽取与欲测量的心理特质直接有关的一组行为进行测量，并依据对这一组行为的测量结果推断其心理特质和教育成就。那些可供实现行为抽样的所有行为的总体成为行为域（behavior domain），从该行为域中被抽取出来的、作为直接测量对象的行为样例就是行为样本（sample of behavior）。例如，我们要想知道学生数学运算能力的高低，就可以先划定相关的数学知识范围，作为知识域，然后从中通过抽样方法选择若干有代表性的数学问题，要求学生解答这些问题。学生在解答这些数学问题时的行为就是我们要测量的直接对象，当我们根据这一组行为来推断其整体的数学运算能力时，这一组行为就是数学运算能力的行为样本，而引起学生行为的那些数学运算问题就构成测验的项目。所以，简单地说，测验就是引起特定行为的工具。显然，所抽取的行为样本必须是能够给测量人员提供有意义的、足以反映个人特定心理特质的一组行为项目，而要做到这一点，首先要使构成测验的行为项目与欲测量的行为域高度相关。

（二）标准化

标准化（standardization）是编制测验的一个重要步骤，也是测验的重要条件。为了使接受测量的不同个人所获得的分数有比较的可能性，测验的条件必须对所有的个人都是相同的。在相同的测验情境中，影响测量分数的唯一的自变量应是正在接受测量的个人的特定心理特质，这样测量结果才具有客观性。测验的标准化就是指测验的编制、实施、记分以及测量分数解释的程序的一致性。具体地说，测验的标准化需要具备以下要件。

1.测验内容的标准化

标准化的首要前提，是对所有接受测量的个人实施相同的或等值的测验内容。测验内容不同，所测得的结果便没有可比较的基础。

2.施测条件的标准化

标准化的第二个条件，是对所有接受测量的个人必须在相同的施测条件下实施测验。其中包括：①相同的测验情境；②相同的指导语；③相同的测验时限。

3.评分规则的标准化

评分规则的标准化要求评分结果的客观性，只有当评分结果客观时，才能将测量分数的差异归于个人心理特质和知识水平的差异。为此，测验中所制定的评分规则要足以使不同评分人的评分结果保持最大限度的一致。

4.测验常模的标准化

编制测验的一个重要步骤是编制测验的常模（norm）。在心理与教育测量领域，由于测量分数没有绝对的零点作为参照点，因此，孤立地看待一个测量分数是没有什么意义的，必须将该测量分数与他人的测量分数相比较，才能显示出它的意义。常模的功能就是给解释测量分数提供一个可比较的参照点。在许多情况下，常模是一组有代表性的被试群体的平均测验分数。这个平均测验分数表示的是普通人的一般状况。解释个人的测量分数就是将这一分数与常模分数相比较，看该分数高于或低于常模分数多少。例如，在能力测量领域，如果某一个人的测量分数高于常模分数，则此人的能力水平高于普通人的平均水平；相反，如果某一个人的测量分数低于常模分数，则此人的能力水平低于普通人的平均水平。

常模既然是对一组有代表性的被试群体的平均测验分数，那么编制测验常模的关键是要抽取有代表性的被试样本，它要求按照抽样原则抽取样本中的每一个个体。这里需要特别说明的是，不能把常模的概念与我们通常理解的标准的概念混淆起来。标准指的是理想上期望达到的最高程度，而常模指的是被试群体已经达到的实际程度。以常模为参照编制的测验叫常模参照测验（normreference test），以标准为参照编制的测验叫目标参照测验或标准参照测验（criterion-reference test）。本书讨论的主要是常模参照测验，但也涉及目标参照测验。

（三）难度或应答率

在编制教育成就测验和各种形式的能力测验时，一个很重要的指标是确定项目的难度值，测验项目是按照其难度值由简单到复杂编排的，而项目难度（item difficulty）是通过计算被试答对某一项目的人数比例来确定的。例如，比内—西蒙智力量表（1905）中的30道题目就是根据50个智力正常儿童和少数智力落后儿童接受该测验结果而编排的。这是最早用客观方法决定项目难度的尝试。难度太低或太高都不能有效地将不同水平的个体区分开来，从而也就不能保证测验的科学性。

编制诸如态度测验、兴趣测验、性格测验不存在难度问题，却有一个对项目的应答率（response ratio）问题。如果在某些项目上，答“是”或答“否”的被试人数太多或太少，则同样不能有效地区分不同态度、兴趣或性格的人。

（四）信度和效度

评价一个测验是否科学的重要指标是它的信度和效度（见第四章和第五章）。信度指的是一个测验的可靠性，即用同一测验多次测量同一团体，所得结果之间的一致性程度。我们用钢片卷尺去测量一木杆的长度，所得结果是可靠的，因为无论是由一个人数次测量，还是分别由数个人去测量，所测得的结果都是一致的。如果改用橡皮软尺去测量木杆，多次测量或多人测量的结果就难以一致。这就是说，橡皮软尺这种测量工具的信度不高。由此可见，信度是衡量测验科学性的最基本的指标。效度指的是一个测验的有效性，即一个测验在多大程度上能够测到它所要测量的心理特质。如果一个测验所测得的不是它所要测得的特质，这个测验就是无效的。例如，智力测验所要测得的特质应是智力，如果一个智力测验测到的不是智力，而是知识，那么无论它的信度有多高，这个智力测验对于测量智力都是无效的。由此可见，效度是衡量测验科学性最重要的指标。