第1章 导论

1.1 复习笔记

一、统计学

1.统计学

统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。

数据收集也就是取得统计数据;数据处理是将数据用图表等形式展示出来;数据分析则是选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论。

2.数据分析所用的方法

(1)描述统计:研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法;

(2)推断统计:研究如何利用样本数据来推断总体特征的统计方法。

二、统计数据的类型

1.分类数据、顺序数据、数值型数据(按计量尺度不同分类)

(1)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的;

(2)顺序数据:只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的;

(3)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数都是数值型数据。

关系:分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因而也可统称为定性数据或称品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可称为定量数据或数量数据。

2.观测数据和实验数据(按收集方法分类)

(1)观测数据:通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的;

(2)实验数据:在实验中控制实验对象而收集到的数据。

3.截面数据和时间序列数据(按被描述的现象与时间的关系分类)

(1)截面数据:在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况;

(2)时间序列数据:在不同时间上收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况。

三、统计中的几个基本概念

1.总体和样本

(1)总体

①总体、个体

总体是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成。组成总体的每一个元素称为个体。

②总体的分类

根据总体所包含的单位数目是否可数可以分为:

a.有限总体:指总体的范围能够明确确定,而且元素的数目是有限可数的;

b.无限总体:指总体所包括的元素是无限的,不可数的。

(2)样本、样本量

①样本:从总体中抽取的一部分元素的集合;

②样本量:构成样本的元素的数目。

2.参数和统计量

(1)参数

参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。研究者所关心的参数通常有总体平均数、总体标准差、总体比例等。

(2)统计量

统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。研究者所关心的统计量主要有样本平均数、样本标准差、样本比例等。

3.变量

(1)变量、变量值

①变量:说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化。

②变量值:变量的具体取值。

(2)变量的类型

①分类变量

是说明事物类别的一个名称,其取值是分类数据。

②顺序变量

是说明事物有序类别的一个名称,其取值是顺序数据。

③数值型变量

是说明事物数字特征的一个名称,其取值是数值型数据。根据其取值的不同,又可以分为:

a.离散型变量:只能取可数值的变量,它只能取有限个值,而且其取值都以整位数断开,可以一一列举;

b.连续型变量:可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举。

(3)变量的其他分类

①随机变量、非随机变量

②经验变量、理论变量

经验变量所描述的是周围环境中可以观察到的事物;理论变量是由统计学家用数学方法所构造出来的一些变量。

1.2 课后习题详解

一、思考题

1.什么是统计学?

答:统计学是关于数据的科学,它所提供的是一套有关数据收集、处理、分析、解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。数据收集也就是取得统计数据;数据处理是将数据用图表等形式展示出来;数据分析则是选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论。

2.解释描述统计和推断统计。

答:数据分析所用的方法可分为描述统计方法和推断统计方法。

(1)描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。

(2)推断统计是研究如何利用样本数据来推断总体特征的统计方法。比如,对产品的质量进行检验,往往是破坏性的,不可能对每个产品进行测量。这就需要抽取部分个体即样本进行测量,然后根据获得的样本数据对所研究的总体特征进行推断,这就是推断统计要解决的问题。

3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?

答:统计数据是对现象进行测量的结果,可以从不同角度对统计数据进行分类:

(1)按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。

①在分类数据中,各类别之间是平等的并列关系,无法区分优劣或大小,各类别之间的顺序是可以改变的;

②顺序数据也表现为类别,但这些类别之间是可以比较顺序的;

③数值型数据具有分类数据和顺序数据的特点,并且还可以进行加、减、乘、除运算。

(2)按照统计数据的收集方法,可以将其分为观测数据和实验数据。

①观测数据是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据;

②实验数据则是在实验中控制实验对象而收集到的数据,自然科学领域的大多数数据都为实验数据;

(3)按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。

①截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况;

②时间序列数据是在不同时间上收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况。

4.解释分类数据、顺序数据和数值型数据的含义。

答:(1)分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。为便于统计处理,对于分类数据可以用数字代码来表示各个类别。

(2)顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。

(3)数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值。

分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因而也可统称为定性数据或称品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此也可称为定量数据或数量数据。

5.举例说明总体、样本、参数、统计量、变量这几个概念。

答:(1)总体是包含所研究的全部个体(数据)的集合。比如,要检验一批灯泡的使用寿命,这一批灯泡构成的集合就是总体。

(2)样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。比如,从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。

(3)参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。比如总体平均数、总体标准差、总体比例等。

(4)统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。比如,样本平均数 表示,样本标准差用s表示,样本比例用p等。

(5)变量是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化。如“商品销售额”、“受教育程度”、“产品的质量等级”等都是变量。变量的具体取值称为变量值。

6.变量可分为哪几类?

答:变量可以分为:

(1)分类变量,是说明事物类别的一个名称,其取值是分类数据;

(2)顺序变量,是说明事物有序类别的一个名称,其取值是顺序数据;

(3)数值型变量,是说明事物数字特征的一个名称,其取值是数值型数据。

7.举例说明离散型变量和连续型变量。

答:(1)离散型变量是指其数值只能用自然数或整数单位计算的变量。如,企业个数、职工人数、设备台数等。

(2)连续型变量是指在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如,生产零件的规格尺寸、人体测量的身高、体重、胸围等为连续型变量。

8.请举出统计应用的几个例子。

答:统计应用举例如下:

(1)每隔10年进行一次的全国人口普查;

(2)对居民手存现金情况的调查;

(3)对某学校历年考研成绩的调查。

9.请举出应用统计的几个领域。

答:应用统计的领域:

(1)企业发展战略;

(2)人力资源管理;

(3)企业进行市场研究;

(4)财务分析;

(5)经济预测;

(6)企业产品质量管理。

二、练习题

1.指出下面变量的类型。

(1)年龄。

(2)性别。

(3)汽车产量。

(4)员工对企业某项改革措施的态度(赞成、中立、反对)。

(5)购买商品时的支付方式(现金、信用卡、支票)。

答:变量可以分为:分类变量、顺序变量和数值型变量。(2)(5)属于分类变量;(4)属于顺序变量;(1) (3)属于数值型变量。

2.某研究部门准备抽取2000个职工家庭推断该城市所有职工家庭的年人均收入。要求:

(1)描述总体和样本。

(2)指出参数和统计量。

答:(1)总体是“该城市所有的职工家庭”,样本是“抽取的2000个职工家庭”。

(2)参数是“城市所有职工家庭的年人均收入”,统计量是“抽取的2000个家庭计算出的年人均收入”。

3.一家研究机构从 IT 从业者中随机抽取1000人作为样本进行调查,其中60%回答他们的月收入在5000元以上,50%的人回答他们的消费支付方式是用信用卡。

回答以下问题:

(1)这一研究的总体是什么?

(2)月收入是分类变量、顺序变量还是数值型变量?

(3)消费支付方式是分类变量、顺序变量还是数值型变量?

(4)这一研究涉及截面数据还是时间序列数据?

答:(1)总体是“所有IT从业者”;

(2)月收入是数值型变量;

(3)消费支付方式是分类变量;

(4)这项研究涉及的是截面数据。

4.一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。

回答以下问题:

(1)这一研究的总体是什么?

(2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值型变量?

(3)研究者所关心的参数是什么?

(4)“消费者每月在网上购物的平均花费是200元”是参数还是统汁量?

(5)研究者所使用的主要是描述统计方法还是推断统计方法?

答:(1)这一研究的总体是“所有的网上购物者”;

(2)“消费者在网上购物的原因”是分类变量;

(3)研究者所关心的参数是“所有的网上购物者的月平均花费”;

(4)“消费者每月在网上购物的平均花费200元”是统计量;

(5)研究者所使用的主要是推断统计方法。

1.3 典型习题详解

一、单项选择题

1.下列选项中,属于分类变量的有( )。

A.年龄

B.工资

C.汽车产量

D.性别(男、女)

【答案】D

【解析】变量可以分为分类变量、顺序变量和数值型变量。D项属于分类变量;ABC三项都是数值型变量。

2.下列选项中,属于数值型变量的有( )。

A.年龄

B.性别

C.购买商品时的支付方式(现金、信用卡、支票)

D.员工对企业某项改革措施的态度(赞成、中立、反对)

【答案】A

【解析】BC两项是分类变量;D项是顺序变量。

3.某研究部门准备在全市500万个家庭中抽取5000个家庭,推断该城市所有职工家庭的年人均消费。这项研究的总体是_____、样本是_____、参数是_____。( )

A.500万个家庭;500万个家庭的人均消费;5000个家庭

B.500万个家庭的人均消费;500万个家庭;5000个家庭

C.500万个家庭;5000个家庭;500万个家庭的人均消费

D.500万个家庭的人均消费;5000个家庭;500万个家庭

【答案】C

【解析】总体是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成;样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量;参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。

4.对某市高等学校科研所进行调查,统计总体是( )。

A.某市所有的高等学校

B.某一高等学校科研所

C.某一高等学校

D.某市所有高等学校科研所

【答案】D

【解析】总体是包含所研究的全部个体的集合。

5.有200个公司全部职工每个人的工资资料,如要调查这200个公司职工的工资水平情况,则统计总体为( )。

A.200个公司的全部职工

B.200个公司

C.200个公司职工的全部工资

D.200个公司每个职工的工资

【答案】A

6.下列属于数值型变量的是( )。

A.月工资

B.学历

C.健康状况

D.性别

【答案】A

【解析】B项是顺序变量;CD两项是分类变量。

7.某研究部门准备在全市500万个家庭中抽取5000个家庭,推断该城市所有职工家庭的年人均消费。这项研究的统计量是( )。

A.5000个家庭

B.500万个家庭

C.5000个家庭的年人均消费

D.500万个家庭的年人均消费

【答案】C

【解析】统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。如样本平均数、样本标准差、样本比例等。5000个家庭的年人均消费为样本平均数,因此为统计量。A项为样本容量;B项为总体数目;D项为总体特征。

8.某省的统计机构要考察本省居民的人均住房面积。随机抽取了8000个家庭进行调查。这里的总体是( )。

A.本省所有居民

B.本省所有居民的住房面积

C.8000户家庭

D.8000户家庭的住房面积

【答案】A

9.在同一时间序列中,各指标值的时间单位一般要求( )。

A.必须为月

B.必须为年

C.相同

D.必须为日

【答案】C

【解析】同一时间序列中,各指标值的时间单位一般要求相同,这样在分析研究中无须考虑时间单位不同所造成的差异。

10.某地区2000~2009年的每年年末人口数是( )。

A.时间序列数据

B.截面数据

C.分类数据

D.顺序数据

【答案】A

【解析】按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。时间序列数据是在不同时间上收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况。

11.2009年城镇家庭的人均收入数据属于( )。

A.分类数据

B.顺序数据

C.截面数据

D.时间序列数据

【答案】C

【解析】按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。其中,截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况。

12.下列不属于描述统计问题的是( )。

A.根据样本信息对总体进行的推断

B.了解数据分布的特征

C.分析感兴趣的总体特征

D.利用图、表或其他数据汇总工具分析数据

【答案】A

【解析】数据分析方法可以分为描述统计方法和推断统计方法。描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计是研究如何利用样本数据来推断总体特征的统计方法。BCD 三项都属于描述统计问题。

13.某大学的一位研究人员希望估计该大学本科生平均每月的生活费支出,为此,他调查了200名学生,发现他们每月平均生活费支出是600元。该统计量是( )。

A.该大学的所有学生

B.所有大学生的总生活费支出

C.该大学所有的在校本科生

D.200名学生每月平均生活费支出

【答案】D

【解析】统计量是样本的函数,是用来描述样本特征的概括性数字度量。

14.在下列叙述中,采用推断统计方法的是( )。

A.用饼图描述某企业职工的年龄构成

B.某日从某食品厂随机抽取了50袋饼干,利用这50袋饼干的平均重量估计这天生产的所有袋装饼干的平均重量

C.一个城市在1月份的平均汽油价格

D.反映大学生统计学成绩的条形图

【答案】B

【解析】ACD三项属于描述统计。

15.一项民意调查的目的是想确定年轻人愿意与其父母讨论的话题。调查结果表明:45%的年轻人愿意与其父母讨论家庭财务状况,38%的年轻人愿意与其父母讨论有关教育的话题,15%的年轻人愿意与其父母讨论爱情问题。该调查所收集的数据是( )。

A.观测数据

B.顺序数据

C.分类数据

D.实验数据

【答案】A

【解析】按照统计数据的收集方法,可以将其分为观测数据和实验数据。观测数据是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。

16.根据样本计算的用于推断总体特征的概括性度量值称作( )。

A.参数

B.总体

C.样本

D.统计量

【答案】D

【解析】统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。如样本平均数、样本标准差、样本比例等。

17.为了估计某城市中拥有空调的家庭比例,抽取500个家庭的一个样本,得到拥有空调的家庭比例为80%,这里的80%是( )。

A.参数值

B.统计量的值

C.样本量

D.变量

【答案】B

18.到商场购物停车变得越来越困难,管理人员希望掌握顾客找到停车位的平均时间。为此某一个管理人员跟踪了50名顾客并记录下他们找到车位的时间。这里管理人员感兴趣的总体是( )。

A.管理人员跟踪过的50名顾客

B.上午在商场停车的顾客

C.在商场停车的所有顾客

D.到商场购物的所有顾客

【答案】C

【解析】总体是包含所研究的全部个体的集合,A项为总体的样本。

19.只能归于某一有序类别的非数字型数据称为( )。

A.分类数据

B.顺序数据

C.数值型数据

D.观测数据

【答案】B

【解析】分类数据是只能归于某一类别的非数字型数据;顺序数据是只能归于某一有序类别的非数字型数据;数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值。按照统计数据的收集方法,可以将其分为观测数据和实验数据。观测数据是通过调查或观测而收集到的数据;实验数据则是在实验中控制实验对象而收集到的数据。

20.通过调查或观测而收集到的数据称为( )。

A.观测数据

B.实验数据

C.时间序列数据

D.截面数据

【答案】A

【解析】观测数据是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。

21.最近发表的一份报告称,“由150部新车组成的一个样本表明,外国新车的价格明显高于本国生产的新车”。这一结论属于( )。

A.对样本的描述

B.对样本的推断

C.对总体的描述

D.对总体的推断

【答案】D

【解析】推断统计是研究如何利用样本数据来推断总体特征的统计方法

二、多项选择题

1.按照所采用的计量尺度,统计数据可以分为( )。

A.分类数据

B.实验数据

C.顺序数据

D.二手数据

E.数值型数据

【答案】ACE

【解析】按照所采用的计量尺度,统计数据可以分为三类:①分类数据:由定类尺度计量形成的,表现为类别,通常用文字表述,但不区分顺序;②顺序数据:由定序尺度计量形成的,表现为类别,通常用文字表述,但有顺序;③数值型数据:由定距尺度和定比尺度计量形成的,说明的是现象的数量特征,通常用数值来表现。

2.数值型变量根据其取值的不同,可以分为( )。

A.离散变量

B.顺序变量

C.连续变量

D.随机变量

E.非随机变量

【答案】AC

【解析】数值型变量根据其取值的不同,又可以分为离散变量和连续变量。其中,离散变量只能取有限值,而且其取值都以整位数断开,可以一一列举;连续变量可以取无穷多个值,其取值是连续不断的,不能一一列举。

3.分类数据和顺序数据统称( )。

A.二手数据

B.定性数据

C.品质数据

D.定量数据

E.数值型数据

【答案】BC

【解析】分类数据和顺序数据所说明的都是事物的品质特征,不能用数值表示,通常用文字表述,其结果表现为类别,故分类数据和顺序数据统称为定性数据或品质数据。

4.连续变量具有的特点包括( )。

A.可以取无穷多个值

B.取值连续不断

C.只可以取有限值

D.其取值都以整位数断开

E.取值不能一一列举

【答案】ABE

5.下列数值型变量中,属于连续变量的有( )。

A.年龄

B.温度

C.企业数

D.人口数

E.零件尺寸

【答案】ABE

【解析】ABE三项均可以取无穷多个值,其取值是连续不断的,不能一一列举,故属于连续变量;CD两项均只能取有限值,而且其取值都以整位数断开,可以一一列举,故属于离散变量。