第一节 一般测量概述

一、测量及其种类

测量(measurement)是人类生产和生活中普遍存在的现象。农业生产要丈量土地面积,工业生产要测定产品的技术指标,地质勘探要测定海拔高度和地质指标,医疗工作要测定人体的生理指标,教育工作要测定学生的学业成绩。至于科学研究中的测量活动就更加普遍,也更加严格了。那么,究竟什么是测量呢?

斯蒂文斯(Stevens,1946)提出了一个简洁的测量定义,认为测量是指“根据法则给客体或事件指派数字”。后来,有研究者(Lord,Novick,1968;Torgerson,1958)认为,测量的对象不是客体(如水果或空气)本身,而是客体的特定属性(如水果的重量或空气中有毒气体的含量)。因此,测量的定义被修改为“根据法则给客体或事件的属性指派数字”,或者通俗地说,测量是指依据一定的法则使用量尺对事物的属性进行定量描述的过程。这一定义包含四个关键词,简单说明如下:

所谓“一定的法则(rule)”,是指任何测量都要建立在某种科学规则和科学原理基础之上,并通过科学的方法和程序完成测量过程。例如,用杆秤测量物体的重量,所依据的是物理学上的杠杆原理;用温度计测量温度,所依据的是热胀冷缩原理;用尺子测量物体的长短,所依据的是把尺子零点对准物体的一端,指认出沿直线到物体另一端的距离。有的测量所依据的法则比较稳定和完善,所以测量的结果比较准确、可靠;而有的测量所依据的法则比较粗糙和欠成熟,测量结果的准确性和可靠性便较差。有的测量所依据的法则的操作比较直观和简单,所以一般的人不需要经过专门训练就能很容易掌握(如称重量或量长短);而有的测量所依据的法则的操作程序复杂(如科技领域的专业测量活动),所以需要经过专门训练才能逐步掌握。

所谓“事物的属性(attribute)”,是指所要测量的客体或事件的特定特征(characteristic)。例如,物体的重量、长短、高矮,物体运动的速度,物体中某些特定成分的含量,等等。这些不同的特征就是测量的特定对象。一种事物有各种各样的属性,对不同的属性要用不同的测量工具依据不同的法则进行测量。有些事物的属性直观明显,具有外显性(如物体的重量、长度等),所以在测量中容易被确定,并容易被所有的人所认同和接受,测量的结果具有无可争辩性;而有些事物的属性不那么外露,具有内隐性(如人的智力水平、性格特点等),所以在测量中难以准确界定,也不容易取得多数人的认同和接受,测量的结果也就不容易获得清楚的解释。

所谓“量尺(scale)”,是指测量中所使用的度量工具。例如,重量测量中的杆秤、电子秤,长度测量中的木尺、皮尺,体温测量中的体温计,等等。不同的测量要用不同的量尺,不同量尺所使用的单位和参照点也不同。

所谓“定量描述(quantitative description)”,是指测量的结果总是对事物属性的量的确定。虽然有时人们把诸如“1”代表男、“0”代表女这样的做法也叫做测量,但这里的数字只是一种分类符号,并不是有意义的数量。所谓“数量”不仅指事物特征的符号,而且指一种有序的量。数量具有四个特性:一是它的区分性,即一个数(如“1”)不同于另一个数(如“2”);二是它的序列性,即1<2<3<4……;三是它的等距性,即2-1=1,3-2=1,所以,2-1=3-2;四是它的可加性,即一个数加另一个数产生第三个数。数量的这些特点是一切数学运算的基础,同样,也正是数的这些特点使得对事物特征差异的测量成为可能。有的测量对事物特征定量描述的精确度高些,而另一些测量对事物特征定量描述的精确度低些。测量的精确度既与测量对象的性质有关,也与测量时所用的工具有关。

首先,测量的精确度决定于测量对象本身的性质。我们可以根据测量对象的性质把它分为三种类型。

(1)确定型,即在一定条件下,事物的量保持恒定不变。例如,物体的长度和重量,只要物体的温度不变,受力状况不变,其长度也就不会改变;只要物体在地球表面的水平位置和垂直高度不变,其重量也不会改变。

(2)随机型,即事物的量随机改变。例如,人的短时记忆的容量,尽管实验者在实验过程中每次向被试呈现刺激的条件保持恒定,但每次测量的结果总是存在差异,只是这种差异总是保持在一定范围内,量的改变趋势也呈现出一定的规律。

(3)模糊型,即事物的量本身是模糊的,难以获得确定的量。例如,对人的性格特征,尽管人们习惯于用热情奔放或冷若冰霜等词汇来描绘,而且能够区分出两个同是热情奔放的人在程度上的差别,但这种差别的量却是很模糊的。显然,对确定型的事物进行定量描述要比对随机型和模糊型的事物进行定量描述要容易得多,因此测量的精确度也要高得多。但是,即使对确定型的事物也不能做出绝对精确的描述,在任何测量过程中都会有误差存在,所不同的是误差的大小而已。

其次,测量的精确度决定于测量工具的精密性。不言而喻,使用技术上完善的测量工具比使用技术上粗糙的测量工具,其测量结果要精确得多。对于长度的测量,用皮尺测量比用脚步测量,其结果要精确得多;而用激光测量比用皮尺测量,其结果又要精确得多。同样,对于重量的测量,用杆秤测量比个人主观估计,其结果要精确得多;而用电子秤测量比用杆秤测量,其结果又要精确得多。因此,尽可能使用技术精密的测量工具,是保证测量精确度的重要条件。但是,不论使用何等精密的测量工具,实际测量中仍然会有误差存在,所不同的也仅是误差的大小而已。测量学的目标之一是设法尽可能地把误差降到最低限度,而不可能完全消灭误差。

测量技术被广泛用于工农业生产、商业流通、科学研究和人们的日常生活领域。根据测量对象的性质和特点,可以将各种不同形式的测量大致分为四种类型。

(1)物理测量:指对事物的物理特征的测量。如长度测量、重量测量、面积测量、速度测量等均属于物理测量。

(2)生理测量:指对机体生理特征的测量。如对动植物各种化学成分含量的测量,对人体各种生理机能的测量等均属于生理测量。

(3)社会测量:指对社会现象的测量。如在人口普查、经济统计、民意调查中所使用的测量技术等均属于社会测量。

(4)心理测量:指对人的心理特征的测量。如智力测量、人格测量、职业兴趣测量、态度测量等均属于心理测量。狭义的教育测量主要指对学生学业成绩和知识水平的测量,此时,教育测量可以被包括在心理测量的范畴之内。但是,广义上的教育测量不仅包括对学生学业成绩和知识水平的测量,而且包括对教育领域中其他教育现象的测量。如对教师教学水平的测量、对整个学校办学质量的测量、对学校管理水平的测量等。此时,教育测量当属社会测量的范畴。本书所使用的教育测量是指狭义的教育测量,但为了与其他心理测量有所区别,将教育测量与心理测量这两个术语并列使用。

二、测量的基本要素

在数学上,测量的数量是由零(0)和任何正负数组成的实数系,该实数系通常可用实数轴直观地表示出来(见图1-1)。实数系是可被无限分解为不同单位的数字连续体,其中每个数值都处于该连续体上的一个特定位置。从图1-1可以观察到,一个完善的测量数量必须具备两个基本要素,即测量的参照点和测量的单位。

图1-1 测量中的数量连续体

(一)测量的参照点

从根本上说,测量是确定特定事物的特定特征的数量。因此,在测量工作中,必须有一个测量的原始起点,也就是测量前测量对象的数量的固定原点。

这个固定原点就叫做测量的参照点(anchor point)。在测量的数量连续体中,固定原点的数字被定为“0”。显然,要使两个测量数量能够相互比较,必须使这两个测量建立在同一个参照点上。因为参照点不同的两个测量,其结果的意义完全不同。

参照点有两种:一种是绝对参照点,即以绝对的零点作为测量的起点。如长度测量和重量测量就是建立在以绝对的零点为参照点的基础上的测量。这个绝对的零点的意义就是“无有”,即没有重量或没有长度,以此为测量的起点去确定某事物有多重或有多长。另一种是相对参照点,即以人为确定的零点为测量的起点。如对地势高度的测量,就是以海平面为测量的起点。此时,人们假定海平面的高度为“零”,然后去确定陆地高出海平面多少。再如对气温的测量,是以水的冰点为测量的起点。此时,人们假定水刚刚能够结为冰的温度为“零”,然后确定气温高于或低于“零”多少度。

最为理想的测量参照点当然是绝对参照点,因为它的意义最为明确。但在许多情况下,人们难以找到绝对参照点,所以必须改用相对参照点。采用相对参照点为测量起点的测量结果只能进行加减运算,而不能进行乘除运算,它的两个值之间没有倍数关系。例如,在智力测量中,假定甲的智商为100,而乙的智商为50,我们不能说甲的智商是乙的智商的2倍,而只能说甲的智商高出乙的智商50。

(二)测量的单位

测量的第二个基本要素是它的单位。在现实生活中,不同测量所用的单位有很大差异,如长度测量的单位是毫米、厘米、分米、米等等,而重量测量的单位是毫克、克、千克、吨等等。但抽象到实数轴的数字连续序列中,可以观察到测量数量的基本单位是“1”,即数量从原点“0”开始移动,数轴上每个连续整数都与前一个整数相距1个单位,数轴上相邻整数间的距离都是相等的。所以,理想的测量单位应当具备两个条件:一是要有确定的意义,即对同一单位,所有人的理解都是相同的,不允许做出不同的解释。例如,所有的人对重量单位“千克”的解释都是一样的,没有歧义。二是要有相等的价值,即第一个单位与第二个单位之间的距离等于第二个单位与第三个单位之间的距离。例如,30千克与20千克之差等于40千克与30千克之差。但是,在某些情况下,要具备这两个条件是相当困难的。例如,教育与心理测量中的单位就往往难以达到这个要求,它远没有其他测量中使用的单位成熟和完善。这一点我们在随后还会谈到。

三、测量的量表

如前所述,要测量某一特定事物的特定特征的数量,必须首先选择一个具有确定单位和测量参照点的数字连续体,将欲测量的特征与这个连续体相比照,确定它的位置,看它距参照点的远近,就会得到该特征的一个度量值。这种能够使事物的特征数量化的数字的连续体就是量表(scale),建立系统的法则,选择有意义的参照点及单位来量化事物属性的获得便称为度量(scaling)。制定量表的参照点和单位不同,就会编制出不同的量表;不同的量表具有不同的测量水平,相应地,测量的精确度也不同。斯蒂文斯(Stevens,1946)根据测量中使用的不同参照点和单位,区分出四种不同水平的测量量表。

(一)称名量表

称名量表(nominal scale)只是用数字代表事物的成分或用数字对事物进行分类,其中的数字只是事物属性的符号,并不具有有意义的固定原点、单位的等距性和数字的顺序性,因而该类数字没有数量的意义。称名量表又可细分为两种形式:一是命名量表,即用数字指代个别事物,如用数字给学生或运动员编号;二是类别量表,即用数字指代事物的种类,如用1、2、3、4、5……分别代表不同的职业类型。

在教育或心理学研究中,研究者通常对有关的调查材料用数字编码。例如,将男性编码为“0”,而将女性编码为“1”,但其中的“0”和“1”并不意味着两种性别存在数量的差异。因此,运用称名量表时,对数字不能作常用的数量分析,如不能说6号学生>5号学生>4号学生,当然也不能进行代数运算。适合于对称名量表进行统计分析的统计方法有百分比、次数、众数和χ2检验。

(二)顺序量表

顺序量表(ordinal scale)上的数字不仅能够指代类别,而且能够表明不同类别的大小、等级或事物具有某种特征的程度。各种比赛、评估中的名次排列就是一种典型的运用顺序量表进行的测量。例如,在各种体育比赛中,我们通常取前三名,分别用1、2、3代表,那么,我们就可以说,1>2>3。这表示,第1名的水平高于第2名的水平,第2名的水平又高于第3名的水平。这种按照事物的大小、等级、程度而排列数字的量表就叫做顺序量表。

顺序量表中的数字与实数轴中的数值具有相同的顺序性,即不同的数字可表示测量对象的等级、大小和程度的差异,但它既没有相等距离的单位,也没有固定的测量原点。换言之,它既并不表示事物特征的真正的数量,也不表示绝对的数值,因此不能进行代数运算。适合于对顺序量表进行统计分析的统计方法有中位数、百分位数、等级相关系数和肯德尔和谐系数等。

(三)等距量表

等距量表(equal interval scale)不仅能够指代事物的类别和等级,而且具有相等距离的测量单位。等距量表的数字是一个真正的数量,这个数量中各个部分的单位是相等的,因此可以对其进行加减运算。例如,在测定气温时,10℃和15℃的差别与15℃和20℃的差别是相等的。

等距量表没有绝对的零点,它的零点是人为假定的相对零点。因此,对于等距量表中的两个数量不能进行乘除运算,它们之间不存在倍数关系。例如,我们不能说20℃是10℃的两倍。适合于对等距量表进行统计分析的统计方法有平均数、标准差、积差相关系数、等级相关系数以及t检验和F检验。

(四)比率量表

比率量表(ratio scale)是最完善的测量量表,因为它除了具有类别、等级和等距的特征外,还具有绝对的零点或固定的原点。许多物理属性的测量都是在比率量表上进行的(如以厘米测量长度,以千克测量重量,或以天数、月数或年数测量年龄)。在该类测量中,一旦知道确定绝对零点的位置,那么实数轴上的任何一个非零点的数值均可表示为与其他数值的比值。这意味着,使用比率量表,不仅可以知道测量对象之间相差的程度,而且可以知道它们之间的比例。例如,在长度测量中,测得甲的长度为9米,乙的长度为3米,此时,我们不仅了解到甲比乙长6米,也了解到甲的长度是乙的长度的3倍。在重量测量中,测得甲的重量为40千克,乙的重量为20千克,那么,我们既可知道甲比乙重20千克,又可知道甲的重量是乙的重量的2倍。适合于对比率量表进行统计分析的统计方法除了与等距量表相同外,还与几何平均数、变异系数等相同。