第2章 数据的搜集

2.1 复习笔记

一、数据的来源

1.数据的间接来源

(1)间接来源的数据(二手资料)

如果与研究内容有关的原信息已经存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可以使用的数据,则称为间接来源的数据。

(2)二手资料的优点

搜集比较容易,采集数据的成本低,并且能很快得到。

(3)二手资料的局限性

相关性不够,口径可能不一致,数据也许不准确,也许过时等。

(4)对二手资料进行评估的内容

①资料是谁搜集的?这主要是考察数据搜集者的实力和社会信誉度。

②为什么目的而搜集?为了某个集团的利益而搜集的数据是值得怀疑的。

③数据是怎样搜集的?搜集数据可以有多种方法,不同方法所采集到的数据,其解释力和说服力都是不同的。如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。数据的质量来源于数据的生产过程。

④什么时候搜集的?对于过时的数据,其说服力自然受到质疑。

使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。

2.数据的直接来源

(1)调查数据

它是通过调查方法获得的数据。调查数据通常取自有限总体,即总体所包含的个体单位是有限的。

普查是对总体中所有个体单位进行的调查,普查数据具有信息全面、完整的特点,对普查数据的全面分析和深入挖掘是统计分析的重要内容。但是,当总体较大时,进行普查将是一项很大的工程,由于普查涉及的范围广,接受调查的单位多,所以耗时、费力,调查的成本也非常高,因此普查是不可能经常进行的。

(2)实验数据

实验数据是指在实验中控制实验对象而搜集到的变量的数据。实验是检验变量间因果关系的一种方法。在实验中,研究人员要控制某一情形的所有相关方面,操纵少数感兴趣的变量,然后观察实验的结果。

二、调查数据

1.概率抽样和非概率抽样

(1)概率抽样

概率抽样(随机抽样):指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

①特点

a.抽样时是按一定的概率以随机原则抽取样本。

所谓随机原则就是在抽取样本时排除主观上有意识地抽取调查单位,使每个单位都有一定的机会被抽中。

b.每个单位被抽中的概率是已知的,或是可以计算出来的。

c.当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。

概率抽样与等概率抽样的区别:概率抽样是指总体中的每个单位都有一定的非零概率被抽中,单位之间被抽中的概率可以相等,也可以不等。若是前者,称为等概率抽样;若是后者,称为不等概率抽样。

概率抽样最主要的优点是可以依据调查结果,计算估计量误差,从而得到对总体目标量进行推断的可靠程度。从另一个方面讲,也可以按照要求的精确度,计算必要的样本单位数目。

②概率抽样的方式

a.简单随机抽样

进行概率抽样需要抽样框,抽样框通常包括所有总体单位的信息,其作用是不仅在于提供了备选单位的名单以供抽选,还是计算各个单位入样概率的依据。

简单随机抽样:从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个单位入样的概率是相等的。

简单随机抽样是一种最基本的抽样方法,是其他抽样方法的基础。

①特点

简单、直观,在抽样框完整时,可以直接从中抽取样本,由于抽选的概率相同,用样本统计量对目标量进行估计及计算估计量误差都比较方便。

②局限性:

第一,它要求包含所有总体单位的名单作为抽样框,当N很大时,构造这样的抽样框并不容易;

第二,根据这种方法抽出的单位很分散,给实施调查增加了困难;

第三,没有利用其他辅助信息以提高估计的效率。

b.分层抽样

将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。

优点:

第一,保证了样本中包含有各种特征的抽样单位,样本的结构与总体的结构比较相近,从而可以有效地提高估计的精度;

第二,在一定条件下为组织实施调查提供了方便(当层的划分是按行业或行政区划进行时);

第三,既可以对总体参数进行估计,也可以对各层的目标量进行估计等等。

c.整群抽样

将总体中若干个单位合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中的所有单位全部实施调查,这样的抽样方法称为整群抽样。

与简单随机抽样相比,整群抽样的特点在于简化了编制抽样框的工作量,并且调查的地点相对集中,从而节省了调查费用,方便了调查的实施。

整群抽样的主要弱点是估计的精度较差。要得到与简单随机抽样相同的精度,需要增加基本调查单位。

d.系统抽样

将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法被称为系统抽样。

主要优点:操作简便,如果有辅助信息,对总体内的单位进行有组织的排列,可以有效地提高估计的精度。

缺点:对估计量方差的估计比较困难。

e.多阶段抽样

采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查。将这种方法推广,使抽样的段数增多,就称为多阶段抽样。

优点:

第一,保证了样本相对集中,从而节约了调查费用;

第二,不需要包含所有低阶段抽样单位的抽样框;

第三,由于实行了再抽样,使调查单位在更广泛的范围内展开。

在较大规模的抽样调查中,多阶段抽样是经常被采用的方法。

(2)非概率抽样

指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。

非概率抽样的方式:

①方便抽样

调查过程中由调查员依据方便的原则,自行确定入抽样本的单位。

方便抽样的最大特点是容易实施,调查的成本低,但是由于方便样本无法代表有明确定义的总体,将方便样本的调查结果推广到总体是没有任何意义的。

②判断抽样

指研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本,实施时根据不同的目的有重点抽样、典型抽样、代表抽样等方式。

重点抽样:从调查对象的全部单位中选择少数重点单位,对其实施调查。这些重点单位的数量虽然不多,但在总体中占有重要地位。

典型抽样:从总体中选择若干个典型的单位进行深入的调研,目的是通过典型单位来描述或揭示所研究问题的本质和规律。因此,选择的典型单位应该具有研究问题的本质或特征。

代表抽样:通过分析,选择具有代表性的单位作为样本,在某种程度上,也具有典型抽样的含义。

判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性。这种方式的抽样成本比较低,也容易操作,但由于样本是人为确定的,没有依据随机的原则,因而调查结果不能用于对总体有关参数进行估计。

③自愿样本

指被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息。

④滚雪球抽样

往往使用于对稀少群体的调查中。在滚雪球抽样中,首先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。

滚雪球抽样的主要优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低。它适合对特定群体进行研究的资料搜集。

⑤配额抽样

类似于概率抽样中的分层抽样,它是首先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。

这种抽样方式操作比较简单,而且可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似。

(3)概率抽样与非概率抽样的比较

非概率抽样适合探索性的研究和市场调查中的概念测试,其特点是操作简便、时效快、成本低,而且对于抽样中的统计学专业技术要求不是很高。

如果调查的目的是用样本的调查结果对总体相应的参数进行估计,并计算估计的误差,得到总体参数的置信区间,就应当使用概率抽样的方法。概率抽样是依据随机原则抽选样本,此时样本统计量的理论分布是存在的。概率抽样的技术含量更高,无论抽选样本和对调查数据进行分析,都要求有较高的统计学专业知识,调查的成本也比非概率抽样的调查成本高。

有时在一项研究性项目中,可以把概率抽样和非概率抽样相结合,发挥各自的特点,满足研究中的不同需求。

2.搜集数据的基本方法

(1)自填式

指在没有调查员协助的情况下由被调查者自己填写,完成调查问卷。

①优点

调查组织者对自填式方法的管理相对容易,自填式的调查成本也是最低的,增大样本量对调查费用的影响很小,也有利于被调查者,在一定程度上可以减小被调查者回答敏感性问题的压力。

②弱点

a.问卷的回收率比较低;

b.自填式方法不适合结构复杂的问卷;

c.自填式方法的调查周期通常都比较长,调查人员也需要对问卷的递送和回收方法进行仔细的研究和选择;

d.对于在数据搜集过程中出现的问题,一般难以及时采取调改措施。

(2)面访式

指现场调查中调查员与被调查者面对面,调查员提问、被调查者回答这种调查方式。

①主要优点

a.可以提高调查的回答率;

b.可以提高调查数据的质量,并且可以对识字率低的群体实施调查;

c.在问卷设计中可以采用更多的技术手段,使得调查问题的组合更为科学、合理;

d.在面访调查中,还可以借助其他调查工具(图片、照片、卡片、实物等)丰富调查内容;

e.能对数据搜集所花费的时间进行调节。

②主要弱点

a.调查的成本比较高;

b.面访这种搜集数据的方式对调查过程的质量控制有一定难度;

c.对于敏感性问题,在面对面条件下,被调查者通常不会像自填式方法下那样放松,也不愿意回答。

(3)电话式

指调查人员通过打电话的方式向被调查者实施调查。

①电话调查的优点

a.速度快,能够在很短的时间内完成调查;

b.适合样本单位十分分散的情况,由于不需要支付调查员的交通费,数据搜集的成本大大下降;

c.对调查员也是安全的;

d.在电话调查中,对访问过程的控制也比较容易。

②电话调查的局限

a.在电话拥有率不高的地区,电话调查这种方式就受到限制;

b.使用电话进行访问的时间不能太长;

c.问卷答案的选项过长、过多,不仅造成调查进度的延缓,被调查者还很容易挂断电话;

d.在被访者不愿意接受调查时,要说服他们就更为困难。

此外,搜集数据的方法还有观察式,即调查人员通过直接观测的方法获取信息。

此外,搜集数据的方法还有观察式,即调查人员通过直接观测的方法获取信息。

3数据搜集方法的选择

选择数据搜集方法时需要考虑的问题有:①抽样框中的有关信息;②目标总体的特征;③调查问题的内容;④有形辅助物的使用;⑤实施调查的资源;⑥管理与控制;⑦质量要求。

三种搜集数据方法的特点如表2—3所示。

表2-3 搜集数据不同方法的特点

三、实验数据

指在实验中控制实验对象而搜集到的变量的数据。

1.实验组和对照组

实验法的基本逻辑:有意识地改变某个变量的情况(设为A项),然后看另一个变量变化的情况(设为B项)。如果B项随着A项的变化而变化,就说明A项对B项有影响。

实验组:指随机抽选的实验对象的子集。在这个子集中,每个单位接受某种特别的处理。

对照组:每个单位不接受实验组成员所接受的某种特别的处理。

匹配:指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组。

实验组和对照组的产生应遵循随机原则,即将实验单位随机地分配到实验组和随机组。

一个好的实验,随机组和对照组的产生不仅应该是随机的,而且应该是匹配的。

2.实验中的若干问题

实验法的逻辑严密,是证明假设、分析事物因果关系的一个良好方式。但在实验过程中也会遇到一些问题:(1)人的意愿;(2)心理问题;(3)道德问题。

3.实验中的统计

(1)统计在实验的过程中的作用

①确定进行实验所需要的单位的个数,以保证实验可以达到统计显著的结果;

②将统计的思想融入实验设计,使实验设计符合统计分析的标准;

③提供尽可能最有效地同时研究几个变量影响的方法。

(2)一个好的实验,应该在两个方面都有效:

①内部的有效性

内部的有效性意味着实验测量的准确性。实验的目的是要考察自变量和因变量之间的因果关系,而如果实验观察结果受到其他无关变量的影响,就很难推断自变量与因变量之间的因果关系。

②外部的有效性

外部的有效性决定是否可以将实验中发现的因果关系进行推广,即能否将结果推广到实验环境以外的情况。

四、数据的误差

指通过调查搜集到的数据与研究对象真实结果之间的差异。

1.抽样误差

这是由于抽样的随机性引起的样本结果与总体真值之间的误差。它描述的是所有样本可能的结果与总体真值之间的平均性差异。并且是一种随机性误差,只存在于概率抽样中。

影响抽样误差大小的因素:

(1)抽样单位的数目。在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;抽样单位的数目越少,抽样误差越大。这是因为随着样本数目的增多,样本结构越接近总体。抽样调查也就越接近全面调查。当样本扩大到总体时,则为全面调查,也就不存在抽样误差了。

(2)总体被研究标志的变异程度。在其他条件不变的情况下,总体标志的变异程度越小,抽样误差越小。总体标志的变异程度越大,抽样误差越大。抽样误差和总体标志的变异程度成正比变化。这是因为总体的变异程度小,表示总体各单位标志值之间的差异小。则样本指标与总体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差。

(3)抽样方法的选择。重复抽样和不重复抽样的抽样误差的大小不同。采用不重复抽样比采用重复抽样的抽样误差小。

(4)抽样组织方式不同。采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织所抽中的样本,对于总体的代表性也不同。通常,常利用不同的抽样误差,做出判断各种抽样组织方式的比较标准。

2.非抽样误差

指除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。无论是概率抽样、非概率抽样,或是在全面性调查中,都有可能产生非抽样误差。

类型:

(1)抽样框误差

统计推论的错误是由于抽样框的不完善造成的,把这种误差称为抽样框误差。一个好的抽样框应该是抽样框中的单位和研究总体中的单位有一一对应的关系。

(2)回答误差

指被调查者在接受调查时给出的回答与真实情况不符。而导致回答误差的原因有多种,主要有:

①理解误差

不同的被调查者对调查问题的理解不同,每个人都按自己的理解回答,大家的标准不一致,由此造成理解误差。

②记忆误差

需要回忆的时间间隔越久,回忆的数据可能就越不准确。所以,缩短调查所涉及的时间范围可以减小记忆误差。

③有意识误差

当调查的问题比较敏感,被调查者不愿意回答,迫于各种原因又必须回答时,可能就会提供一个不真实的数字。

产生有意识误差的动因大致有两种:一种是调查问题涉及个人隐私,被调查者不愿意告诉,所以造假;另一种是受利益驱动,进行数字造假。有意识误差比记忆误差危害要大。

(3)无回答误差

指被调查者拒绝接受调查,调查人员得到的是一份空白的答卷。

无回答误差有时是随机的,有时是系统性的。如果无回答的产生与调查的内容无关,在随机状态下,被访者如果回答,其结果可能高于平均值,可能低于平均值,高低相互抵消,不会产生有偏估计。但当无回答的产生与调查内容有关时,就可能产生系统性误差。

如果无回答误差是随机的,可以通过增大样本量的方式解决。

解决无回答的系统性误差的途径主要有:

①预防,即在调查进行前做好各方面的准备工作,尽量把无回答降到最低程度;

②当无回答出现后,分析无回答产生的原因,采取一些补救措施。

(4)调查员误差

(5)测量误差

3.误差的控制

抽样误差是由于抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免。控制抽样误差的主要方法是改变样本量,要求的抽样误差越小,所需要的样本量就越大。

非抽样误差与抽取样本的随机性无关,因而在概率抽样和非概率抽样中都会存在(但抽样框误差仅在概率抽样中存在)。有很多的原因造成非抽样误差,因此控制起来比较困难。

非抽样误差控制的重要方面是调查过程的质量控制。这包括:调查员的挑选,调查员的培训,督导员的调查专业水平,对调查过程进行控制的具体措施,对调查结果进行检验、评估,对现场调查人员进行奖惩的制度等。

2.2 课后习题详解

1.什么是二手资料?使用二手资料需要注意些什么?

答:(1)如果与研究内容有关的原信息已经存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可以使用的数据,则称为间接来源的数据,即二手资料。

(2)在使用二手资料前,对二手资料进行评估是必要的。对二手资料进行评估应考虑如下一些内容:

①资料是谁搜集的?这主要是考察数据搜集者的实力和社会信誉度。

②为什么目的而搜集?为了某个集团的利益而搜集的数据是值得怀疑的。

③数据是怎样搜集的?搜集数据可以有多种方法,不同方法所采集到的数据,其解释力和说服力都是不同的。如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。数据的质量来源于数据的生产过程。

④什么时候搜集的?对于过时的数据,其说服力自然受到质疑。

另外,使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。

2.比较概率抽样和非概率抽样的特点。举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。

:(1)由于非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的,因而无法使用样本的结果对总体相应的参数进行推断。非概率样本的特点是操作简便、时效快、成本低,而且对于抽样中的统计学专业技术要求不是很高。

概率抽样是依据随机原则抽选样本,这时样本统计量的理论分布是存在的,因此可以根据调查的结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置信区间,并且在进行抽样设计时,对估计的精度提出要求,计算为满足特定精度要求所需要的样本量。当然,概率抽样的技术含量更高,无论抽选样本和对调查数据进行分析,都要求有较高的统计学专业知识,调查的成本也比非概率抽样的调查成本高。

(2)非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试,如产品包装测试、广告测试等,这时不需要将调查结果投影到总体的情况。

概率抽样是依据随机原则抽选样本,样本统计量的理论分布是存在的,若调查的结果要求对总体的有关参数进行估计,并对估计的精度提出了要求,这时应选取概率抽样,如调查不同年龄层段的消费水平等。

3.调查中搜集数据的方法主要有自填式、面访式、电话式。除此之外,还有哪些搜集数据的方法?

答:搜集数据的方法除了自填式、面访式、电话式,此外,搜集数据的方法还有观察式,即调查人员通过直接观测的方法获取信息,如利用安置在超市中的录像设备观察顾客挑选商品时的表情;在十字路口通过计数的方法估算车流量等。

4.自填式、面访式、电话式调查各有什么利弊?

答:(1)①自填式的长处:

a.调查组织者对自填式方法的管理相对容易,只要把问卷正确地送达被调查者手中即可;

b.调查成本也是最低的,增大样本量对调查费用的影响很小;

c.有利于被调查者,他们可以选择方便的时间填答问卷,可以参考有关记录而不必依靠记忆进行回答。也可以在一定程度上减小被调查者回答敏感性问题的压力。

②自填式的弱点:

a.问卷的回收率比较低;

b.自填式方法不适合结构复杂的问卷,对调查的内容有所局限;

c.调查周期通常都比较长;

d.对于在数据搜集过程中出现的问题,一般难以及时采取调改措施。

(2)①面访式的长处:

a.可以激励被调查者的参与意识,提高调查的回答率;

b.调查员可以在现场解释问卷,回答被调查者的问题,同时,对被调查者的回答进行鉴别和澄清,提高调查数据的质量,并且可以对识字率低的群体实施调查;

c.在问卷设计中可以采用更多的技术手段,使得调查问题的组合更为科学、合理。而且,可以借助其他调查工具(图片、照片、卡片、实物等)丰富调查内容;

d.能对数据搜集所花费的时间进行调节。

②面访式的弱点:

a.调查的成本比较高;对调查过程的质量控制有一定难度;

b.对于敏感性问题,被调查者可能不愿意回答;

c.对于敏感性问题,在面对面条件下,被调查者通常不会像自填式方法下那样放松,也不愿意回答。

(3)①电话式的长处:

a.速度快,能够在很短的时间内完成调查;

b.由于不需要支付调查员的交通费,数据搜集的成本大大下降;

c.对调查员是安全的;

d.对访问过程的控制也比较容易。

②电话式的弱点:

a.容易受电话工具的限制;

b.进行访问的时间不能太长;

c.调查所使用的问卷需要简单;

d.由于不是面对面的交流,在被访者不愿意接受调查时,要说服他们就更为困难。

5.请举出(或设计)几个实验数据的例子。

答:实验数据是指在实验中控制实验对象而搜集到的变量的数据。例如:对在一起饲养的一群牲畜,分别喂给不同的饲料,以检验不同饲料对牲畜增重的影响。

6.你认为应当如何控制调查中的回答误差?

答:回答误差是指被调查者在接受调查时给出的回答与真实情况不符。控制调查中的回答误差需要根据导致回答误差的原因进行分析,导致回答误差的原因有多种,主要有理解误差、记忆误差和有意识误差。

(1)对于理解误差,要注意问卷中的措辞,设计一份好的调查问卷;

(2)对于记忆误差,要缩短调查所涉及的时间范围;

(3)对于有意识误差,调查人员要做好被调查者的思想工作,让他们打消顾虑;调查人员要遵守职业道德,为被调查者保密;调查中尽量避免敏感性问题。

7.怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。

答:针对无回答误差应做好预防工作,出现了无回答误差,要具体分析导致误差的原因,进行补救。

(1)如果无回答误差是随机的,可以通过增大样本量的方式解决。

例如:调查设计要求完成1000个样本单位,结果回答了800个,无回答率为20%,这时可以再随机抽250个单位,并对其进行调查,如果无回答率仍旧为20%,就可以得到200个单位的回答。同时还应增加调查员的责任心和耐心。

(2)如果无回答误差是系统性误差,解决的途径主要在两个方面:

①预防,即在调查进行前做好各方面的准备工作,尽量把无回答降到最低程度;

②当无回答出现后,分析无回答产生的原因,采取一些补救措施。

例如:在无回答单位中再抽取一个样本,实施更有力的调查,并以此作为无回答层的代表,和回答层的数据结合起来对总体进行估计。

2.3 典型习题详解

一、单项选择题

1.二手数据的特点是( )。

A.搜集方便、数据采集快、采集成本低

B.采集数据的成本低,搜集比较困难

C.数据可靠性较好

D.数据的相关性较好

【答案】A

【解析】二手数据是指与研究相关的原信息已经存在,只是对原信息重新加工、整理,使之成为进行统计分析可以使用的数据。二手数据具有搜集方便、数据采集快、采集成本低等优点,但是得到的数据往往缺乏相关性。

2.从含有N个元素的总体中,抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中,这样的抽样方式称为( )。

A.简单随机抽样

B.分层抽样

C.系统抽样

D.整群抽样

【答案】A

【解析】简单随机抽样就是从包括总体N个单位的抽样框中随机地、一个个地抽取n个单位作为样本,每个单位的人样概率是相等的。分层抽样是将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。系统抽样将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。整群抽样将总体中若干个单位合并为组,这样的组称为群;抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。

3.为了调查某校学生的每月的生活费支出,从全校抽取8个班级的学生进行调查,这种调查方法是( )。

A.简单随机抽样

B.系统抽样

C.分层抽样

D.整群抽样

【答案】D

【解析】将总体中若干个单位合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中的所有单位全部实施调查,这样的抽样方法称为整群抽样。题中某校学生为总体,班级的学生为群,从全校抽取8个班级的学生进行调查,这种调查方法是整群抽样。

4.某地区为了掌握该地区水泥生产的质量情况,拟对占该地区水泥总产量的80%的五个大型水泥厂的生产情况进行调查,这种调查方法是( )。

A.代表抽样

B.典型抽样

C.简单随机抽样

D.重点抽样

【答案】D

【解析】重点抽样是从调查对象的全部单位中选择少数重点单位,对其实施调查。这些重点单位的数量虽然不多,但在总体中占有重要地位。对占比重比较大的五个大型水泥厂进行调查以掌握该地区水泥生产的质量情况,属于重点调查。

5.有意识地选择三个农村点调查农业收入情况,此调查方法属于( )。

A.重点抽样

B.简单随机抽样

C.代表抽样

D.典型抽样

【答案】D

【解析】典型抽样是从总体中选择若干个典型的单位进行深入的调研,目的是通过典型单位来描述或揭示所研究问题的本质和规律。选择的典型单位应该具有研究问题的本质或特征,所以有意识地选择三个农村点调查农业收入情况,属于典型抽样。

6.为了调查某校学生的购书费用支出,将全校学生的名单按拼音顺序排列后,每隔50名学生抽取一名学生进行调查,这种调查方法是( )。

A.简单随机抽样

B.整群抽样

C.系统抽样

D.分层抽样

【答案】C

【解析】系统抽样是将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。所以将学生排序后,每隔50名学生抽一名进行调查,属于系统抽样。

7.在商店进行拦截式调查获得样本数据的方式属于( )。

A.普查

B.方便抽样调查

C.判断抽样调查

D.随机抽样调查

【答案】B

【解析】方便抽样调查是指调查过程中由调查员依据方便的原则,自行确定入抽样本的单位。

8.研究人员根据对研究对象的了解有目的选择一些单位作为样本,这种调查方式是( )。

A.自愿抽样

B.配额抽样

C.方便抽样

D.判断抽样

【答案】D

【解析】判断抽样是一种比较方便的抽样方式,是指研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本,实施时根据不同的目的有重点抽样、典型抽样、代表抽样等方式。

9.为了了解某地区职工的劳动强度和收入状况,并对该地区各行业职工的劳动强度和收入情况进行对比分析,有关部门需要进行一次抽样调查,应该采用( )。

A.分层抽样

B.简单随机抽样

C.等距抽样

D.整群抽样

【答案】A

【解析】分层抽样是将抽样单位的某种特征或某种规划划分为不同的层,然后从不同的层中独立、随机的抽取样本。为了了解某地区职工的劳动强度和收入状况,并进行对比分析,采用分层抽样的方式,先将此地区职工按劳动强度分成几类,然后从各类中随机抽取调查单位调查其收入状况。

10.一般说来,使样本单位在总体中分布最不均匀的抽样组织方式是( )。

A.简单随机抽样

B.分层抽样

C.系统抽样

D.整群抽样

【答案】D

【解析】将总体中若干个单位合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中的所有单位全部实施调查,这样的抽样方法称为整群抽样。因此,整群抽样中样本单位在总体中分布最不均匀。在这方面,简单随机抽样、分层抽样和系统抽样均优于整群抽样。

11.下列选项中,抽样调查的结果不能用于对总体有关参数进行估计的是( )。

A.分层抽样

B.判断抽样

C.整群抽样

D.系统抽样

【答案】B

【解析】判断抽样是指研究人员根据经验、判断和对研究对象的了解,有目的地选取一些单位作为样本,实施时根据不同的目的有重点抽样、典型抽样、代表性抽样等方式。判断抽样属于非概率抽样,抽取样本时不是依据随机原则,因而调查结果不能用于对总体有关参数进行估计。

12.如果要对稀少群体的进行调查,适宜采用的调查方式是( )。

A.滚雪球抽样

B.判断抽样

C.系统抽样

D.整群抽样

【答案】A

【解析】滚雪球抽样往往使用于对稀少群体的调查中。它的主要优点是容易找到那些属于特定群体的被调查者,调查的成本也比较低。它适合对特定群体进行研究的资料搜集。

13.下列选项中,属于概率抽样的有( )。

A.重点抽样

B.配额抽样

C.系统抽样

D.滚雪球抽样

【答案】C

【解析】调查实践中经常采用的概率抽样方式有以下几种:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样。ABD均为非概率抽样。

14.先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。这种抽样方式称为( )。

A.分类抽样

B.配额抽样

C.系统抽样

D.整群抽样

【答案】B

【解析】配额抽样类似于概率抽样中的分层抽样,在市场调查中有广泛的应用。它是首先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。

15.与概率抽样相比,非概率抽样的优点是( )。

A.样本统计量的分布是确定的

B.可以利用样本的结果对总体相应的参数进行推断

C.操作简便、时效快、成本低

D.技术含量更高

【答案】C

【解析】非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的,无法使用样本的结果对总体相应的参数进行推断。非概率抽样的优点是操作简便、时效快、成本低,而且对于抽样中的统计学专业技术要求不是很高。

16.某所大学需要了解学生每天的时间分配情况,改善学校的上自习困难问题。调查人员将问卷发给上自习者,填写后再收上来。此种收集数据的方法属于( )。

A.面访式问卷调查

B.自填式问卷调查

C.实验调查

D.观察式调查

【答案】B

【解析】自填式指在没有调查员协助的情况下由被调查者自己填写,完成调查问卷。

17.为了了解某厂生产的电灯泡寿命,在收集数据时,最有可能采用的数据搜集方法是( )。

A.普查

B.公开发表的资料

C.随机抽样

D.实验调查

【答案】C

【解析】随机抽样也称概率抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。由于要了解电灯泡寿命属于破坏性的,所以不可能进行普查,只能采取随机抽样的方式利用样本数据推断总体数据。

18.下列关于抽样误差的说法,正确的是( )。

A.抽样误差是针对某个具体样本的检测结果与总体真实结果的差异而言的

B.样本量越大,抽样误差就越小

C.抽样调查变成普查时,抽样误差大于零

D.总体的变异性越大,抽样误差也就越小

【答案】B

【解析】抽样误差并不是针对某个具体样本的检测结果与总体真实结果的差异而言的,抽样误差描述的是所有样本可能的结果与总体真值之间的平均性差异;抽样调查变成普查,这时抽样误差便减小到零,因为这时已经不存在样本选择的随机性问题,每个单位都需要接受调查;总体的变异性越大,即各单位之间的差异越大,抽样误差也就越大,因为有可能抽中特别大或特别小的样本单位,从而使样本结果偏大或偏小。

19.如果一个样本因人故意操纵而出现偏差,这种误差属于( )。

A.抽样误差

B.实验误差

C.设计误差

D.非抽样误差

【答案】D

【解析】数据的误差有两类:抽样误差和非抽样误差。抽样误差是由于抽样的随机性引起的样本结果与总体真值之间的误差;非抽样误差是相对抽样误差而言的,是指除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。因人故意操纵而出现的偏差属于非抽样误差。

20.某餐厅为了解顾客对餐厅的意见和看法,管理人员随机抽取了50名顾客,上门通过问卷进行调查。这种数据的收集方法称为( )。

A.观察式调查

B.实验调查

C.面访式问卷调查

D.自填式问卷调查

【答案】C

【解析】面访式是指现场调查中调查员与被调查者面对面,调查员提问、被调查者回答这种调查方式。

21.下列叙述错误的是( )。

A.抽样误差只存在于概率抽样中

B.非抽样误差只存在于非概率抽样中

C.无论是概率抽样还是非概率抽样都存在非抽样误差

D.在全面调查中也存在非抽样误差

【答案】B

【解析】抽样误差是一种随机误差,只是存在于概率抽样中;非抽样误差则不同,无论是概率抽样、非概率抽样,或是在全面性调查中,都有可能产生非抽样误差。

22.下列选项中,属于抽样误差的有( )。

A.随机误差

B.抽样框误差

C.回答误差

D.无回答误差

【答案】A

【解析】随机误差属于抽样误差;抽样框误差、回答误差、无回答误差属于非抽样误差。

23.某居民小区为了解住户对物业服务的看法,准备采取抽样调查方式搜集数据。物业管理部门利用最初的居民户登记名单进行抽样。但现在的小区中,原有的一些居民户已经搬走,同时有些是新入住的居民户。这种调查产生的误差属于( )。

A.随机误差

B.抽样框误差

C.回答误差

D.无回答误差

【答案】B

【解析】抽样框误差是指由于抽样框的不完善性造成的统计推断错误。在概率抽样中需要根据抽样框抽取样本。一个好的抽样框应该是,抽样框中的单位和研究总体中的单位有一一对应的关系,现在的小区中,原有的一些居民户已经搬走,同时有些是新入住的居民户,这时,抽样框中的单位与研究总体的单位就不存在一一对应的关系,使用这样的抽样框抽取样本就会出现抽样框误差。

24.某居民小区的物业管理者为了解住户的每月的用水情况,采取抽样调查方式对部分居民户进行调查,发现有些居民户有虚报或瞒报情况。这种调查产生的误差属于( )。

A.回答误差

B.抽样框误差

C.有意识误差

D.无回答误差

【答案】C

【解析】当被调查的问题比较敏感,被调查者不愿意回答,迫于各种原因又必须回答时,可能就会提供一个不真实的数字。产生有意识误差的动因大致有两种,一种是调查问题涉及个人隐私,被调查者不愿意告诉,所以造假;另一种是受利益驱动,进行数字造假。居民受利益驱动,故虚报或瞒报用水情况,这种误差属于有意识误差。

25.某居民小区的物业管理者为了解住户每月的用水情况,采取抽样调查方式对部分居民户进行调查。调查员在登记水表数时有抄错的数据。这种调查产生的误差属于( )。

A.有意识误差

B.抽样框误差

C.调查员误差

D.无回答误差

【答案】C

【解析】调查员误差是指由于调查员的原因而产生的调查误差。例如,调查员粗心,在记录调查结果时出现错误。调查员误差还产生于调查中的诱导,而调查员本人可能并没有意识到。

26.下列关于误差的叙述,错误的是( )。

A.抽样误差是可以避免的

B.抽样误差是可以控制的

C.抽样误差是不可避免的

D.非抽样误差是控制起来比较困难

【答案】A

【解析】抽样误差是由于抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免。抽样误差是可以控制的,要求的抽样误差越小,所需要的样本量就越大。非抽样误差与抽取样本的随机性无关,因而在概率抽样和非概率抽样中都会存在,有很多原因造成非抽样误差,因此控制起来比较困难。

二、多项选择题

1.随机抽样的特点有( )。

A.遵循随机原则

B.适合探索性的研究

C.每个单位被抽中的概率是已知的,或是可以计算出来的

D.适合市场调查中的概念测试

E.估计量不仅与样本单位的观测值有关,也与其入样概率有关

【答案】ACE

【解析】概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。它具有下面几个特点:①抽样时是按一定的概率以随机原则抽取样本;②每个单位被抽中的概率是已知的,或是可以计算出来的;③当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,即估计量不仅与样本单位的观测值有关,也与其入样概率有关。BD两项是非概率抽样的特点。

2.评价二手资料的准则包括( )。

A.资料是由谁生产的

B.资料是为什么目的而生产的

C.资料是怎样生产的

D.资料是什么时候生产的

E.资料的搜集是否方便

【答案】ABCD

【解析】评价二手资料的准则:①资料是谁搜集的?②为什么目的而搜集的?③数据是怎样搜集的?④什么时候搜集的?另外,使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。

3.下列抽样方式中属于非概率抽样的有( )。

A.系统抽样

B.判断抽样

C.整群抽样

D.滚雪球抽样

E.方便抽样

【答案】BDE

【解析】非概率抽样的方式包括:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样。AC两项为概率抽样。

4.下列属于判断抽样的有( )。

A.重点抽样

B.方便抽样

C.典型抽样

D.代表抽样

E.配额抽样

【答案】ACD

【解析】判断抽样是指研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本,实施时根据不同的目的有重点抽样、典型抽样、代表抽样等方式。BE两项为非概率抽样。

5.下列关于简单随机抽样的说法,正确的有( )。

A.简单随机抽样是一种最基本的抽样方法,是其他抽样方法的基础

B.简单随机抽样突出特点是简单、直观

C.在规模较大的调查中,也可以采用简单随机抽样的方法

D.抽选的概率是相同的

E.根据简单随机抽样抽出的单位比较集中

【答案】ABD

【解析】在规模较大的调查中,很少直接采用简单随机抽样,一般是把这种方法和其他抽样方法结合在一起使用;根据简单随机抽样抽出的单位很分散。

三、简答题

1.统计数据的间接来源有哪些?

答:统计数据的间接来源,称为二手或间接的统计数据,可以从公开的出版物、未公开的内部调查等。在我国公开出版或报道的社会经济统计数据主要来自国家和地方的统计部门以及各种报刊媒介,另外报纸、杂志、广播、电视、历史文献、网络等也是获得二手数据的重要渠道。

2.简述二手数据的特点。

答:二手数据具有搜集方便、数据采集快、采集成本低等优点,但对一个特定的研究问题而言,二手数据的主要弱点是相关性不够,所以仅仅靠二手数据还不能回答研究所提出的问题,这时就要通过调查的方法和实验的方法直接获得一手数据。

3.简述概率抽样与非概率抽样的区别。

答:(1)概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。

(2)概率抽样与非概率抽样的区别:概率抽样是依据随机原则抽选样本,这时样本统计量的理论分布是存在的,因此可以根据调查的结果对总体的有关参数进行估计,计算估计误差,得到总体参数的置信区间,并且在进行抽样设计时,对估计的精度提出要求,计算为满足特定精度要求所要的样本量。而非概率抽样不是依据随机原则抽选样本,样本统计量的分布是不确切的,因而无法使用样本的结果对总体相应的参数进行推断。

4.简述搜集数据的基本方法及其特点。

答:搜集数据的基本方法:

(1)自填式。自填式方法的弱点:首先,问卷的返回率比较低。其次,自填式方法不适合结构复杂的问卷,对调查的内容有所局限。此外,自填式方法的调查周期通常都比较长,调查人员也需要对问卷的递送和回收方法进行仔细的研究和选择。最后,对于在数据搜集过程中出现的问题,一般难以及时采取调改措施。

(2)面访式。面访式的弱点主要有:首先,调查的成本比较高。其次,面访这种搜集数据的方式对调查过程的质量控制有一定难度。此外,对于敏感性问题的调查,需要对调查员的访谈技巧进行技术培训。

(3)电话式。电话调查也有一定的局限。因为电话调查的工具是电话,如果被调查者没有电话,调查将无法实施。所以在电话拥有率不高的地区,电话调查这种方式就受到限制。另外,使用电话进行访问的时间不能太长,人们不愿意通过电话进行冗长的交谈,特别是被调查者对这项调查的内容不感兴趣时就更是如此。同时,电话调查所使用的问卷要简单。最后,与面访式相比,电话调查由于不是面对面的交流,在被访者不愿意接受调查时,要说服他们就更为困难。

此外,搜集数据的方法还有观察式,即调查人员通过直接观测的方法获取信息。

5.数据的误差来源有哪些?

答:数据的误差有两类:抽样误差和非抽样误差。

抽样误差是由于抽样的随机性引起的样本结果与总体真值之间的误差。

非抽样误差是相对抽样误差而言的,是指除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。

6.分层抽样与整群抽样有何异同?它们分别适合于什么场合?

:(1)相同点:分层抽样和整群抽样都是需要事先按某一标志对总体进行划分的随机抽样。

不同点主要在于:分层抽样的划分标志与调查标志有密切关系,而整群抽样的划分标志不一定与调查标志有关;分层抽样在总体的每个层内随机抽样,而整群抽样在总体全部群体中随机抽取一部分群体;比较计算公式可知,分层抽样的抽样误差取决于各层总体方差的平均数,而整群抽样的抽样误差取决于总体的群间方差;分层抽样的目的(优点)主要是缩小抽样误差,满足推断各子总体数量特征的需要,而整群抽样的目的(优点)主要是扩大抽样单位,简化抽样组织工作。

(2)适用场合:分层抽样用于层间差异大而层内差异小时,以及为了满足分层次管理决策需要时;整群抽样用于群间差异小而群内差异大时,或只有以群体为抽样单位的抽样框时等。