3.5 实例五——多表和多维列联表分析

3.5.1 多表和多维列联表分析功能与意义

对于一些大型数据集,我们经常需要许多不同变量的频数分布。那么如何快速简单地实现这一目的呢?这就需要用到Stata的多表和多维列联表分析功能。下面我们就以实例的方式来介绍这一强大功能。

3.5.2 相关数据来源

【例3.5】某高校经济学院针对其研究生学生的持有证书情况进行了调查。证书分为3类,包括会计师证书、审计师证书、经济师证书。数据经整理汇总后如表3.7所示。试使用Stata 14.0对数据进行以下操作:①对数据中的所有分类变量进行单个变量汇总统计;②对数据中的所有分类变量进行二维列联表分析;③以是否持有会计师证书为主分类变量,制作3个分类变量的三维列联表。

表3.7 某高校经济学院的研究生学生持有证书情况

3.5.3 Stata分析过程

在用Stata进行分析之前,我们要把数据录入到Stata中。本例中有4个变量,分别是性别、是否持有会计师证书、是否持有审计师证书以及是否持有经济师证书。我们把性别变量设定为gender,把是否持有会计师证书设定为account,把是否持有审计师证书设定为audit,把是否持有经济师证书设定为economy,变量类型及长度采取系统默认方式,然后录入相关数据。相关操作我们在第1章中已有详细讲述。录入完成后数据如图3.19所示。

图3.19 案例3.5数据

先做一下数据保存,然后开始展开分析,步骤如下:

进入Stata 14.0,打开相关数据文件,弹出主界面。

在主界面的“Command”文本框中输入操作命令并按键盘上的回车键进行确认。对应的命令分别如下。


●tab1 account audit economy:本命令的含义是对数据中的所有分类变量进行单个变量汇总统计。

●tab2 account audit economy:本命令的含义是对数据中的所有分类变量进行二维列联表分析。

●by account,sort:tabulate audit economy:本命令的含义是以是否持有会计师证书为主分类变量,制作3个分类变量的三维列联表。

3.5.4 结果分析

在Stata 14.0主界面的结果窗口我们可以看到如图3.20~图3.22所示的分析结果。

图3.20 分析结果图

图3.20是对数据中的所有分类变量进行单个变量汇总统计的结果。

从分析结果中我们可以看出本次调查所获得的信息:发现该学校经济学院的研究生学生中共有99人参与了有效调查,其中拥有会计师证书的有59位学生,在99名学生中占比59.6%;拥有审计师证书的有24位学生,在99名学生中占比24.24%;拥有经济师证书的有27位学生,在99名学生中占比27.27%。此外,结果分析表中Cum.一栏表示的是累计百分比。

图3.21是对数据中的所有分类变量进行二维列联表分析的结果。

图3.21 分析结果图

从分析结果中我们可以看出本次调查所获得的信息:分析结果中包括3张二维列联表,第1张是变量“audit”与变量“account”的二维列联分析,第2张是变量“economy”与变量“account”的二维列联分析,第3张是变量“audit”与变量“economy”的二维列联分析。关于二维列联表的解读,我们在上节的实例中已经讲述过,不再赘述。

图3.22是以是否持有会计师证书为主分类变量,制作3个分类变量的三维列联表的结果。

图3.22 分析结果图

该分析结果是一张三维列联表,包括两部分:上半部分描述的是当“account”变量取值为“no”的时候,变量“audit”与变量“economy”的二维列联分析;下半部分描述的是当“account”变量取值为“yes”的时候,变量“audit”与变量“economy”的二维列联分析。

3.5.5 案例延伸

上述的Stata命令比较简洁,分析过程及结果已达到解决实际问题的目的。但是Stata 14.0的强大之处在于,它同样提供了更加复杂的命令格式以满足用户更加个性化的需求。

在这里我们介绍一个用于多维列联分析的Stata命令——table。这是一个多功能的命令,可以实现多种数据的频数、标准差数据特征的列联分析。例如,我们要进行简单的频数列联分析,那么操作命令就应该相应地修改为:

    table   account   audit   economy, contents(freq)

在命令窗口输入命令并按回车键进行确认,结果如图3.23所示。

图3.23 分析结果图

本结果分析图的解读方式与前面类似,这里不再赘述。

上述命令中contents括号里的内容表示的是频数,该括号内支持的内容与命令符号的对应关系如表3.8所示。

表3.8 contents括号里支持的内容与命令符号的对应关系