2.2 空间数据及其探索性分析

2.2.1 空间数据

空间数据(spatial data)也可以称为地理数据,是以不同的方式和来源获得的数据,如地图、统计数据等,这些数据都具有能够确定空间位置的特点。

空间数据有栅格模型和矢量模型两种基本的表示模型。其中,矢量模型将地理空间看成是一个空间区域,地理要素存在其间。在矢量模型中,各类地理要素根据其空间形态特征分为点、线、面三类。点状要素用坐标点对表示其位置;线状要素用其中心轴线(或侧边线)上的抽样点坐标串表示其位置和形状;面状要素用范围轮廓线上的抽样点坐标串表示其位置和范围。

矢量数据模型是以坐标点对来描述点、线、面三类地理实体。描述地理实体的矢量方法有很多,这些不同的矢量数据模型之间的一个主要差别是采用路径拓扑(path topology)模型还是采用网络拓扑(graph topology)模型。其中,网络拓扑模型是在一个关于边界的关系网络模型中来考察二维要素。在网络拓扑模型中,强调了对多边形间关系的描述,即在拓扑结构中,将一个多边形图形中的节点、边和面分别显式描述并记录它们之间的关系,这样不但可以反映出面与面间的相邻关系,还反映了边与边之间、点与点之间的连接关系。

在拓扑模型中,较著名的是美国人口调查局DIME模型(Dual Independent Map Encoding,双重独立地图编码模型)和美国计算机图形及空间分析实验室研制的POLYVRT(Polygon Convertor——多边形转换器)模型。

2.2.2 空间数据分析

空间数据分析起源于20世纪60年代的地理计量革命,是一种研究地理对象空间效应的数据分析技术,用来发现隐藏在数据背后的重要信息或规律。空间数据分析可以分为两类:探索性空间数据分析(exploratory spatial data analysis, ESDA)和确认性空间数据分析。其中,确认性空间数据分析在经济学领域又称为空间计量经济学(spatial econometrics)。空间数据分析的一般程序是:首先运用探索性空间数据分析直观地描述空间数据,主要目的是发现问题;然后运用空间计量经济方法更深入地研究所发现的问题,并为相关理论提供经验证据。探索性空间数据分析一般应用空间统计方法。

一、空间分布

空间分布的类型有(见图2.8):

图2.8 空间分布类型举例及其均方差差异

(1)随机分布:观测点在空间上随机分布(任何空间观测点不受其他观测点的影响)。

(2)空间集聚:观测点在空间上集聚在一起,剩余的大量空间上没有或只有少量观测点。

(3)空间分散:观测点与相邻点较远,不存在集聚现象。

二、空间统计

空间统计是伴随卫星遥感空间技术应用而发展起来的一门新学科。它以具有地理空间信息特性的事物和现象的空间相互作用及变化规律为研究对象,将统计学和现代图形计算技术结合起来,用直观的方法展现空间数据中隐含的空间分布、空间模式以及空间相互作用等特征。空间统计的基础假设是空间数据具有空间多维特征和时空相关性。这两点是空间统计区别于传统统计的最大特征。基于此,空间统计方法以全新的思维模式来观察事物,并从根本上改变了传统的统计观念,是对传统统计方法的重大革新。

空间统计指标有三类:第一类是全局空间统计指标。这类指标侧重空间分布的区位及属性变量的全局特征,如空间密集指数、地理范围和重心等(Zhao, 2008; Zhao和Song,2008)。第二类是空间距离指标。这类指标侧重空间分布的区位及距离,如K函数、L函数、K密度。K函数、L函数和K密度利用对完全空间随机的偏离水平描述一个空间分布的集聚性(Marcon和Puech,2003;Duranton和Overman,2005)。第三类是局部空间统计指标。这类指标侧重属性变量的区际差异,如Gini系数、Ellison-Glaeser系数、Krugman专业化系数、首位度(或最大百分比)、Herfindahl系数等(Krugman,1991; Ellison和Glaeser,1997; Davis和Weinstein,2002)。

空间统计可分析空间经济问题。例如,可用空间统计特别是全局空间统计指标(如密集程度、地理范围和重心)测度空间集聚等空间经济组织特征(Arbia,2001; Marcon和Puech,2003; Sweeney和Feser 2004; Zhao,2008)。密集程度指标能够反映单位地理范围(面积)所分布的经济活动的规模,并体现集聚的空间范围(全局或局部);地理范围指标既可以反映经济活动在空间上的集聚性空间离散性指标——平均(径向)距离的计算公式为:与随机性,也可以反映某种经济活动和其他经济活动的空间分布之间的差异和相互制约关系;重心指标一方面可以反映经济活动在地域上的相对位置,另一方面可以反映某种经济活动和其他经济活动的空间分布之间的差异和相互关联关系。

式中,{xi, yi}是地理单元i的(重心)坐标;n个观测地理单元的重心坐标;wi是地理单元i的属性变量;Dw空间分布w到其重心的平均距离。上式表明如果一个空间分布wi在各个不同的地点等比例增长,其平均距离D保持不变。

使用空间密集程度、地理范围和重心等三个指标可以通过控制经济活动的地理范围变化来准确鉴别经济活动的空间密集水平的变化(Zhao,2008; Aboufadel和Austin,2006),从而避免像Gini系数、Zipf分布等方法那样将空间扩张(离散化)作为集聚程度下降的缺陷。和全局空间统计方法相比,Gini系数等局部空间统计指标显示空间集聚水平随着空间分散的出现而下降,K函数等空间距离指标也把空间集聚和空间分散对立起来。这两类指标并没有揭示空间随机的多样性特点。

三、探索性空间数据分析

探索性空间数据分析是一种具有识别功能的空间数据分析方法,主要用于探测空间分布的非随机性或空间自相关。空间自相关性分析(也称聚类检验)是认识空间分布特征、选择适宜的空间尺度来完成空间分析的最常用方法。

探索性空间数据分析将统计学和现代图形计算技术结合起来,用直观的方法展现空间数据中隐含的空间分布、空间模式以及空间相互作用等特征。这种方法本质上是由数据驱动的探索过程,而不是由理论驱动的演绎推理过程,其目的是“让数据自己说话”,通过数据分析来发现问题。在实践中,基于点和基于面的空间聚类分析方法是明显不同的。基于点的方法分析在某个距离半径内点的分布是否比随机模式下更集聚;而基于面的方法则用来检验邻近目标之间属性是否相似或相异。

探索性空间数据分析主要使用两类工具:第一类用来分析空间数据在整个系统内表现出的分布特征,通常将这种整体分布特征称为全局空间相关性,一般用Moran指数I(Moran,1950)、Geary指数C(Geary,1954)测度;第二类用来分析局部子系统所表现出的分布特征,又称为局部空间相关性,具体表现形式包括空间集聚区、非典型的局部区域、异常值或空间政区(spatial regimes)等,一般用G统计量、Moran散点图和LISA来测度。

1.全局空间相关性

Moran指数I是最早应用于全局聚类检验的方法(Cliff和Ord,1973)。它检验整个研究区中邻近地区间是相似、相异(空间正相关、负相关),还是相互独立的。Moran指数I的计算公式如下:

式中,n是研究区内地区总数,wij是空间权重(如以区域i和区域j是否相邻设定wij:区域i和区域j相邻时,wij=1;区域i和区域j不相邻时,wij=0);xixj分别是区域i和区域j的属性;,是属性的平均值;,是属性的方差。

Moran指数I可以看做是观测值与它的空间滞后(spatial lag)之间的相关系数。变量xi的空间滞后是xi在邻域j的平均值,定义为:

因此,Moran指数I的取值一般在-1到1之间,大于0表示正相关,值接近1时表明具有相似的属性集聚在一起(即高值与高值相邻、低值与低值相邻);小于0表示负相关,值接近-1时表明具有相异的属性集聚在一起(即高值与低值相邻、低值与高值相邻)。如果Moran指数I接近于0,则表示属性是随机分布的,或者不存在空间自相关性。

与Moran指数I相似,Geary指数C也是全局聚类检验的一个指数。计算Moran指数I时,用的是中值离差的叉乘,但是,Geary指数C强调的是观察值之间的离差,其公式为:

Geary指数C的取值一般在0到2之间(2不是一个严格的上界),大于1表示负相关,等于1表示不相关,而小于1表示正相关。因此,Geary指数C与Moran指数I刚好相反。Geary指数C有时也被称为G系数(Getis-general G),例如在ArcGIS中就用这个名字,用于区分在局部聚类分析中使用的指数Gi

在ArcGIS 9.0软件新增的空间统计工具包中,提供了Moran指数I和Geary指数C的计算功能,具体步骤是:ArcToolbox>Spatial Statistics Tools>Analyzing Patterns>选Spatial Autocorrelation(Moran's I)计算Moran指数I,选High-Low Clustering(Getis-Ord General G)计算Geary指数C。GeoDa软件包中也有Moran指数I和Geary指数C的计算工具。

2.局部空间自相关

Anselin(1995)提出了一个局部Moran指数(local Moran index),或称LISA(local indicator of spatial association),用来检验局部地区是否存在相似或相异的观察值聚集在一起。区域i的局部Moran指数用来度量区域i和它邻域之间的关联程度,定义为:

正的Ii表示一个高值被高值所包围(高—高),或者是一个低值被低值所包围(低—低)。负的Ii表示一个低值被高值所包围(低—高),或者是一个高值被低值所包围(高—低)。

类似的,Getis和Ord(1992)开发了一个Geary指数的局部聚类检验,称之为Gi指数(Gi statistic),用来检验局部地区是否存在统计显著的高值或低值。Gi指数的定义如下:

这个指数用来检验局部地区是否有高值或低值在空间上趋于集聚。高的Gi值表示高值的样本集中在一起,而低的Gi值表示低值的样本集中在一起。Gi指数还可用于回归分析中的空间滤值处理,解决空间自相关问题(Getis和Griffith,2002)。

在ArcGIS中,计算局部Moran指数和Gi指数的具体步骤是:ArcToolbox>Spatial Statistics Tools>Mapping Clusters>选Cluster and Outlier Analysis计算局部Moran指数,选Hot Spot Analysis计算Gi指数。计算结果可以分别通过“Cluster and Outlier Analysis with Rendering”和“Hot Spot Analysis with Rendering”的工具来绘图显示。GeoDa软件包也能计算局部Moran指数,但不能计算Gi指数。

在应用中,空间聚类分析的各种指数值和相应的统计检验都具有重要意义。例如,Shen(1994,第177页)在分析美国旧金山地区各社区控制发展政策的影响时,利用Moran指数检验了两种理论。第一种理论是,那些制定并实施控制发展政策(以防止人口大量迁入导致的交通堵塞、学校拥挤、环境恶化等问题)的社区往往是很吸引人的地方,很多人不能迁入这些社区,只好在其邻近的社区(条件也不错但没有控制发展)找地方住下来,这样一来,实施控制发展政策的人口低增长地区就邻近于无控制发展政策的、次优的高增长地区,在空间分布上表现为负自相关。第二种理论与所谓的NIMBY(not in my backyard,即“不在我后院”)现象有关,控制发展的社区也不让其相邻的社区发展太快,这样低增长社区会聚集在一起,而一些鼓励发展的社区也聚集在一起,在空间分布上表现为正自相关。究竟哪一种理论更有说服力,哪一种现象更明显,就得靠空间聚类分析和严谨的统计检验来判断。

例2.1中国城市人口的空间聚集分析(基于空间统计方法)

图2.9显示了中国278个地级以上城市(不包括拉萨)辖区人口的全局空间统计参数,表明中国城市人口呈局部聚集状态:图2.9表明中国城市人口分布深受中国地形的制约,而不是空间随机过程的结果。

中国(278个)城市体系的重心在东经114.094度,北纬33.041度,其平均(径向)距离为958.47公里。278个城市人口的重心在东经115.246度,北纬33.551度,其平均距离为918.31公里,比城市体系的空间范围小40.16公里,这表明中国城市人口在城市体系范围内是偏向局域聚集的,并非随机过程的产物。如果中国人口在城市体系上的分布是随机的话,那么它与城市体系分布的重心和平均距离应该是非常接近的,统计上是完全一样的。

278个城市人口分布的方位为北偏东17.4度,与中国平原地形的东北走势基本接近。

图2.9 2005年中国地级以上城市辖区人口空间分布

注:图中圆心表示中国278个地级以上城市人口分布的重心,圆圈半径表示城市人口分布的平均(径向)距离,椭圆长轴与正北方向的夹角表示城市人口分布的方位。