§2.3 统计表和统计图

§2.3.1 统计表

(1)统计表的概念

把经过调查整理汇总计算而得到的统计数据按一定的结构和顺序,系统地排列在一定的表格内,就形成了统计表。统计表是表现统计数据的基本工具。经过整理的统计数据用统计表的形式表现,较之于冗长的文字叙述更为醒目、清楚,便于数据的检查核对和比较分析。

(2)统计表的构成

统计表从形式上看一般由总标题、横行标题、纵列标题、数字资料等要素构成,必要时可以在表的下方加上表外附加。总标题是统计表的名称,概括表的内容,置于表的正上方。横行标题放在表内的左端,表示研究的对象。纵列标题放在表的右上端,也称为指标名称。统计表的结构如表2-7所示。

表2-7 2015年三次产业对国内生产总值增长的贡献率和拉动 ←总标题

(3)统计表的种类

统计表的形式多种多样,根据使用者的要求和数据本身的特点,可以设计出形式多样的统计表。统计表按照分组情况不同,可分为简单表、简单分组表、复合分组表。对总体未经过任何分组,按总体单位排列的统计表称为简单表;对总体按一个标志分组的统计表称为简单分组表(如表2-7);对总体按两个及以上标志进行层叠分组的统计表称为复合分组表(如表2-8)。

表2-8 2015年国内、国外三种专利申请受理情况单位:件

资料来源:《中国统计年鉴2016》。

将不同时间的数据按照时间顺序排列形成的统计表,就是时间序列表。利用时间序列表可以反映现象变动的趋势和规律。

对于定类数据的描述和分析,通常需要用列联表进行交叉分析。列联表又称为交叉表,它是由两个以上的变量进行交叉分类的频数分布表,可以同时用于汇总两个变量的数据和检验两个变量之间的关系的方法。例如表2-9是对某个地区200家饭店餐价和质量等级进行交叉分析编制的列联表。表中的行是饭店的质量等级,是个定性变量,分为较好、好、很好;表中的列变量——餐价,是一定量变量。

表2-9是一个2×4列联表,表中的每个数据都反映着来自饭店质量等级和餐价两个方面的信息。列联表提供了变量之间关系的内涵。从表2-9反映出餐价的高低与饭店的质量等级有联系,质量等级越高的饭店,餐价越高。

表2-9 200家饭店的质量等级与餐价的列联表

列联表广泛用于研究两个变量间的关系。在两个变量都是定性变量或两个变量都是定量变量时,也可以编制列联表对变量的关系进行分析。

(4)统计表的设计规则

由于使用者的目的及统计数据的特点不同,统计表在形式和结构上会有较大差异,但其设计的基本要求是一样的,要便于使用者进行比较、分析及阅读,“科学、实用、简练、美观”仍然是设计统计表的基本要求。设计统计表时一般应该注意以下规则:

①统计表的各种标题,确切地反映和概括出表的基本内容。特别是总标题的表达,力求简明,总标题一般需要表明统计数据的时间(When)、地点(Where)以及何种数据(What),即标题内容应满足3W要求。

②表中不要罗列太多和过于庞杂的内容,尽可能做到简明扼要。

③要合理安排统计表的结构,表中的行和列各栏,一般应按先局部后整体的原则排列,即先列各个项目,后列总计。当没有必要列出所有项目时,可以先列总计,而后列出其中一部分的项目。

④如果统计表的栏数较多,通常要加以编号,在横行标题和计量单位等栏,用甲、乙、丙等文字标明;纵列标题各栏,用(1)、(2)、(3)等数字编号。

⑤表中数字应该填写整齐,对准位数,同栏数字的单位、小数位要一致。若有相同数字应全部填列,不得写“同上”字样。当不应有数字时用“—”表示。

⑥统计表中必须注明数字资料的计量单位。当全表只有一种计量单位时,可以把它写在表头的右上方。如果表中需要分别注明不同单位时,横行的计量单位可以专设一拦;纵拦的计量单位,要与纵标目写在一起。

⑦必要时统计表应该加注说明或注解。例如,某些指标有特殊的计算口径,某些资料只包括一部分地区,某些数字是由估算来插补等,都要加以说明,此外还要注明统计资料的来源,以便查考。说明或注解一般写在表的下端,作为表外附加。

§2.3.2 统计图

统计图是直观的表达统计数据的形式,它可以将复杂、枯燥的数据用形象生动的图形表现出来,正确的绘制和使用好统计图是统计分析的基础。绘制这些图形,除直方图外,基本上都可以利用Excel的图表功能来完成。在Excel工作表中,输入数据后点击“图表向导”(或在“插入菜单”下点击“图表”),选择所需的图表类型,按所选图表对话框中的提示操作,即可得到所需的统计图。

(1)柱形图

柱形图是用宽度相同、高度或长短不同的条形来表示数据多少的图形。柱形图既可以用来表示定性数据的分布,也可以用来进行同类形象在不同空间、不同时间的对比。

柱形图与直方图不同。首先,直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,矩形的宽度则表示各组的组距,因此其高度和宽度都有意义;而柱形图是用柱形的高度表示各类别频数的多少,其宽度是固定的。其次,由于分组数据有连续性,直方图的各矩形通常是连续排列的,而柱形图则是分开排列的。最后,柱形图主要用于分类数据的显示,而直方图用于展示分组数据。

柱形图的类别较多,绘制时,各类别可以放在纵轴,称为柱形图,也可以放在横轴上,称为条形图。如按表2-1中的资料绘制成的图2-12,就是柱形图。

图2-12 2015年我国就业人数的产业分布

(2)饼图

饼图又称圆形图,整个饼图面积代表所研究数据的整体,每一个扇形面积代表总体每个部分所占的百分比,主要用于表示各部分对于总体的比例,对结构性问题研究十分有用。

图2-13是利用表2-2数据绘制的饼图。

图2-13 某地区居民对住房满意度

(3)环形图

环形图与饼图类似,主要用于反映现象的结构,但两者又有区别。环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。饼图显示一个总体各组成部分所占的比重,而环形图可以在一个图上显示多个总体的结构,其中每一环是一个总体数据系列,这样有利于我们比较不同总体的结构差异。图2-14是根据表2-10中2015年我国东、西部地区居民平均每人消费支出结构绘制的环形图,外环反映的是西部地区居民的消费结构,内环是反映东部地区居民的消费结构,利用这个环形图便于直接比较两个地区居民消费结构的差异。

表2-10 2015年东、西部地区居民人均消费支出

资料来源:《中国统计年鉴2016》

图2-14 2015年我国东、西部居民人均消费支出构成

(4)线图

线图是在直角坐标上用折线表现数据变化的图形,主要用于显示时间序列数据,反映现象随时间变化的特征。

图2-15是根据全国城乡居民家庭人均收入的数据绘制的线图。从图中可以观察到,城乡居民家庭人均收入呈逐年提高的趋势,城镇居民的家庭人均收入明显高于农村,且差距越来越大。

图2-15 全国城乡居民家庭人均收入

(5)雷达图

雷达图也称为蜘蛛图,是显示多个变量特征的多维图。在显示或对比各变量的数值总和时很有用。假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域值成正比。利用雷达图也可以研究多个总体之间的相似程度。图2-16是根据表2-10的数据绘制的雷达图。

图2-16 2015年我国东西部地区居民人均消费支出构成

一张精心设计的统计图形是展示数据的有效工具,可以准确地表达数据所要传递的信息。设计图形时,应绘制得尽可能简洁,以能够清晰地显示数据、合理地表达内容和目的。应避免一切不必要的修饰。图形体现的视觉效果应与数据所体现的事物特征相一致,否则有可能歪曲数据,给人以错误的印象。

6.茎叶图

直方图展示了总体数据的主要分布特征,但它掩盖了各组内数据的具体差异。为了弥补这一缺陷,对于未分组的原始数据则可以用茎叶图来观察其分布。茎叶图由“茎”和“叶”两部分构成,其图形是由数字组成的。

①单组数据。

绘制茎叶图的关键是设计好树茎。制作茎叶图时,首先把一个数字分成两部分,通常是以该数据的高位数值作为“树茎”,以次高位的数值作为“树叶”。如136分成“13”和“6”,86分成“8”和“6”,前面部分是树茎,后面部分是树叶。

在画茎叶图时,先将茎依从小到大的次序写在一条竖线的左边,然后将每个数据的叶写在竖线的右边,并将它们按从小到大的次序排列,再给出叶的单位,这便构成了一张茎叶图。图2-17是根据例2-1的数据制作的茎叶图。

图2-17 某班学生统计学成绩的茎叶图

图2-17的竖线左边的数值称为“茎”,竖线右边的数值称为“叶”。以第3行为例,竖线左边的6表示该行所有数值的十位数都为6,个位数最小为0(成绩为60分),最大为9(成绩为69分),数据个数为15,即成绩为六十几分有15人。其余以此类推。

②两组数据。

在要比较两组样本时,可画出它们的背靠背的茎叶图,这是一个简单直观而有效的对比方法。

【例2-2】某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:

1)甲运动员得分:13,51,23,8,26,25,16,33,14,28,39,23

2)乙运动员得分:49,24,40,31,50,39,44,36,15,37,40,41

为对其进行对比,我们将这些数据放到一个背靠背的茎叶图上(图2-18)。

图2-18 两运动员得分的背靠背茎叶图

在图2-18中,树茎放置中间,这里使用的是共同的茎,甲运动员的树叶向左生长,乙运动员的树叶向右生长。从茎叶图可以看出,甲运动员的得分较为分散,而乙运动员的得分较为集中,乙运动员发挥较为稳定且其整体水平较高。

(3)茎叶图的特征:

A.用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示;

B.茎叶图只便于表示两位(或一位)有效数字的数据,对位数多的数据不太容易操作;而且茎叶图只方便记录两组的数据,对两组以上的数据虽然能够记录,但是没有表示两组记录那么直观,清晰;

C.茎叶图对重复出现的数据要重复记录,不能遗漏。