第一节 有关人口预测的研究

人口预测通常需要考虑的问题有“生”、“死”和“迁移”。人口预测是学龄人口预测的基础,预测本身回答“如果……,那么……”的问题。学龄人口预测需要将分年龄段人口预测作为蓝本,再综合考虑在校生数、入学率、升学率以及教育政策等相关因素。本书主要对北京市基础教育阶段学龄人口进行预测,作为学龄人口预测的基础,本节主要对人口预测方法及应用领域进行梳理与评价。学历教育对应的学龄人口主要在3~27岁,该年龄段的死亡率较低,而生育和迁移的影响对该年龄段人口数量的影响较大。因此,在梳理的过程中本书也会特别关注这两部分。

一 人口预测方法梳理

用于人口预测的方法大致有以下四类。第一类:推算法,将人口增长趋势与某种数学分布相联系来建立模型,如早期的马尔萨斯模型、费尔哈斯Logistic人口增长模型等,此类方法可用于对人口变动的基本趋势判断,无法做准确预测。第二类:队列法,也称队列要素预测法,将未来人口数看作一个随时间变化的队列,建立离散时间模型,如凯菲茨矩阵模型、莱斯利矩阵模型、宋健人口发展方程等,这类模型对数据要求较高,需要具备分年龄人口数数据、生育率、死亡率、迁移等多方面的数据,该方法是现阶段比较常用的预测方法,预测结果也比较准确。第三类:线性回归法,根据影响因素建立回归模型,进行线性回归,这类模型有自回归滑动平均模型(Autoregressive Moving Average Model,ARMA模型)、多元回归模型等,但由于人口变动并不是线性的,所以长期预测效果并不理想。第四类:非线性模拟法,通过建立非线性模型来模拟人口数量的未来走势,如BP神经网络、灰色系统法等,这类方法适用于数据不完全,或影响因素无法确定的情况,虽然预测结果现在还不是十分理想,但有较好的发展前景。[1]

(一)推算法

推算法是早期人口学预测较常用的方法。基本思路来源于统计研究生物种群内部个体数量随时间变化的关系,通常回答生物数量经过多长时间会翻倍,或者经过多长时间会减半之类的问题。在现代人口预测中,只有人生活在封闭的系统中,预测才是比较准确的。推算法通常会假定一个地区的人口按照某一固定的比例增加,或者人口的变化与某种数学分布高度吻合。比较典型的有:算术级数推算法,即假定一个国家或者地区的人口按固定的比例变化;几何级数推算法,即假定一个国家或者地区的人口按某一比值变化;指数增长方程推算法,即假定人口的变化以指数形式(马尔萨斯模型)变化,常用于对人口翻倍所需时间的估计,或者推算某一地区历史上有过多少人。另外,还有Logistic推算法,假定长期的人口变化与Logistic曲线十分相似,早期增长缓慢,中期增长迅速,当到达一定水平时又会比较稳定。我国学者使用Logistic进行人口预测研究的有:张荔对Logistic基本模型进行了改进,并对山西省的人口总量进行了预测;周后卿、周琪使用同样的方法对邵阳市进行了预测,并将预测误差控制在了5%以内。[2]如果对预测的精度要求不高,只进行粗略估计,推算法是一种比较简便、实用的方法。

(二)队列法

队列法,亦称队列要素构成法,主要是考虑人口年龄分布效应的一种预测方法,也是人口预测中最常用的一种方法。在塞缪尔·普雷斯顿等人为宾夕法尼亚大学人口统计学研究生所著的教科书中宣称:“该方法几乎是人口预测中唯一使用的方法,代表了社会科学中罕见的一致认同。”[3]

队列法的基石是人口平衡方程,使用离散时间模型表达人口变动的过程,即时间每向前推移一个年龄段[4],该年龄段内所有存活的人口加上净迁移的人口会自然地进入下一个年龄段。属于这种预测方法的有Keyfitz矩阵方程,该方程是美国数理人口学家、社会学家内森·凯菲茨(Nathan Keyfitz)所创立,初创时仅考虑人口的出生与死亡两个因素,但没有考虑迁移对预测的影响。现阶段,较常用的为Leslie矩阵方程,该方程是1945年澳大利亚学者Leslie提出的,最初用于研究动物的数量变化,后来才应用于人口预测。Leslie矩阵考虑了生育、死亡以及迁移三个要素,较内森·凯菲茨的矩阵方程更为合理。对生育、死亡及迁移的预测也有很多不同的方式,因此,在与Leslie矩阵进行组合的过程中也有很多的变化。我国学者宋健的人口发展方程,也是在改进了Leslie矩阵生育分布模式的基础上建立起来的。国家计生委研发的人口预测CPPS软件也是队列要素预测法的一种。另外,与其他人口预测方法相比队列法可以对人口结构进行预测,如对不同年龄段、不同性别的人口数进行预测,而不仅仅是对人口总数进行预测,并且预测结果比较稳定。在对学龄人口进行预测时,需要对特定年龄段的适龄人口数进行具体预测,因此,队列要素构成法在学龄人口预测中也被广泛地应用。但队列要素构成法也有其局限性,例如除了基年的人口数据外,其余变量都需要进行假设,假设是否符合实际情况,对预测是否准确有非常大的影响。[5]

国内的人口预测中也广泛地使用队列要素法,如王会英基于河北省2015年1%人口抽样调查数据并结合“五普”“六普”数据对河北省2015~2049年人口变化情况进行了预测。[6]薄文以离散的队列要素人口预测模型为主模型,结合非参数平滑的思想,对队列要素法涉及的基本要素进行函数型数据分析,对中国2014~2030年人口年龄结构趋势进行了预测。[7]

(三)线性回归法

线性回归法,主要是在控制其他条件不变的情况下,考察因变量与自变量之间的关系。在预测中主要使用时间序列的方法,即通过对过去一段时间的人口数据的规律,进行分析、建立模型,对变量进行自回归。但这种方法也需要过去一段时期内较完整的人口数据,而且时间序列在分析的过程中也比较困难,因为很难假设人口数据之间是独立于时间的,人口在两个相邻的时间点间往往是高度相关的。

当然也可以使用计量经济学中针对其他数据结构[8]的线性模型,对不同影响因素进行分析。针对本书而言,可用于验证某种外部因素与生育、死亡或迁移的关系,如教育、政策变化等因素与生育、死亡、迁移等因素是否存在因果关系(Causal Effect)。线性回归法也可以与队列要素法相结合,首先,使用多元线性回归或其他模型确定外部因素与生育、死亡或迁移之间的具体数量关系;然后,将该数量关系用于队列要素预测法。

(四)非线性模拟法

非线性模拟法,主要是解决变量之间无法建立线性模型,变量之间的关系无法完全确定,或者面临“小样本”“贫信息”的情况。以下介绍两种比较常用的方法:灰色系统法和BP神经网络法。

灰色系统法是我国学者邓聚龙在20世纪80年代提出的,在已知系统中的部分信息,但系统内部因素的关系并不完全清晰,特别是针对“小样本”“贫信息”的情况[9],即在资料无法完全获取,且影响因素不明确的情况下可以使用灰色系统进行预测。其原理为,通过将已知数据进行某种线性或非线性的转换,而得到未来预测的数据。灰色系统在单数列预测以及自然灾害、系统突变预测中都有广泛的应用。在人口预测中的很多情况,可知的信息少,影响因素复杂无法识别,或者缺少相关数据。因此,灰色系统在人口预测的过程中得到了广泛的应用,特别是对流动人口的预测。与线性回归的最大不同点是灰色系统并不寻找变量之间的因果关系,而是通过数据自身的线性或非线性变换来预测未来。最初的灰色模型为GM(1,1),而后又产生了灰色等维递补预测模型等改进的方法。

国内人口预测的相关研究如下。李学锋、骆培聪运用灰色系统预测法对东部、中部、西部各省份的农村人口老龄化发展趋势进行了预测。[10]吴华安等应用OGM(1,N)模型对重庆市人口密度进行了模拟和预测。[11]杨滨峰采用经典的GM(1,1)模型对商洛市人口变化的情况进行了预测。[12]李慧、徐强使用GM(1,1)模型,对江苏省制造业的人才需求进行了预测。[13]

BP神经网络法是Werbos在20世纪70年代基于非线性动力学系统创立的,可以用来描述认知、决策等智能行为。其特点为,模拟人脑思维的非线性特征,通过自我学习及训练来寻找最优解。其过程为:首先,选择神经元的个数及层数;其次,输入训练样本(为总体样本的一部分);再次,让计算机进行自我学习,通过模拟建立样本之间的非线性映射关系;最后,当学习达到一定精度后,BP神经网络会自动输出预测值。与灰色系统相同,BP神经网络也并不寻找变量之间的因果关系,而是通过输入数据与输出数据之间的关系来进行预测。BP神经网络预测的过程是一种学习的过程,因此神经元个数、层数的选择以及学习的次数都会影响预测结果,并且每次输出的结果并不相同。但BP神经网络需要大量的数据作为预测基础,数据不足会影响预测的精度。

根据上文的分析与评价不难得到,从预测结果来看,只有使用矩阵或者队列的方式才能既得到人口总量又得到人口年龄结构的信息;从应用来看,我国现阶段的大多数研究集中在对国家省级层面的研究,对于区县的预测还很少。我国各区县的人口大部分超过50万人[14],而且,基础教育阶段的事权都集中于区县层级的教育部门,因此,基于区县的人口预测,在对学龄人口的预测过程中还是不可或缺的。

二 人口流动相关理论

人口流动在人口预测中对应着“迁移”这一要素,是人口预测中最复杂,也是最困难的问题。对北京、上海、广州、深圳这样的超大型人口城市,人口流动问题尤为重要。其中,人口流动中所产生的随迁子女入学问题也引起了政府、社会以及学界的广泛关注。对人口流动理论的探讨分散在地理学、人类学、经济学、人口学、政治学、社会学等诸多领域。探讨的问题又包括人口流动的原因、人口流动数量以及趋势的预测、人口流动与发展、人口流动政策分析等多个方面。由于各学科基本假定、研究方法、分析框架的不同,所以很难建立一个统一的单一分析框架将以往的理论融合在一起。迄今为止,虽然每个学科都在不断发展完善,但是对于流动问题的解释都有很大的缺陷。对于建立一个普世的人口流动理论还需一个漫长的过程。

(一)新古典均衡的观点

最早关于流动的文献可以追溯至19世纪的Ravenstein他提出流动(Migrant)是发展不可分割的一部分,经济是导致流动的主因。[15]同时流入地与流出地之间的地理距离及人口密度也与流动相关。[16]

而后,在最早的流动理论基础上发展出新古典均衡主义的人口流动理论,新古典均衡主义遵守经济学的分析框架。从微观层面,新古典流动理论视流动为个人行为,遵守理性人假说,认为信息是完全的,人口是否流动取决于成本效益分析的结果。人口流动的主要原因是为了使自身的生产效率得到提高,获得最高的工资。[17]从宏观层面,新古典均衡流动理论认为流动在城市和农村两个部门间展开,[18]城市部门的特点为劳动力稀缺、工资较高、资本充足,为人口流动的流入地;农村部门的特点为劳动力剩余、工资较低、缺乏资本,为人口流动的输出地。人口流动可以达到劳动力与资本的均衡,使两部门要素价格达到均衡。

(二)流动转型理论

流动转型理论认为人口流动是分阶段的,是一种自然界的循环或者迭代的过程。[19]虽然与传统的生育变迁理论有较大的差别,但其分析基石仍是通过分析生育率与死亡率差别来完成的。其中比较突出的为Zelinsky的五阶段论。

第一阶段,人口处于高生育率与高死亡率阶段,死亡率高于或者略低于生育率,人口处于长期低增长阶段。对应现代化前的传统社会,人口主要生活在固定的村庄,除非有自然灾害、战争、宗教活动、商业交流,不然很少有流动行为。其背景是中世纪的欧洲、同时期的日本或者封建时期的中国,国民已经进入定居生活,而非部落迁徙状态。在第一阶段,人口在地理或者社会方面的迁移不常发生。而迁移的原因多为物质、天灾或者战争。跨越边境进行迁移的主要是艺术家、宗教人员、士兵、技术人员、学者、罪犯和航海者。在这个阶段,社会关系禁锢,交通及通信技术处于较低水平,可支配收入较少,全面反映社会生活的信息难以获得,数据散碎的分布于历史文献之中,对迁移数量进行研究十分困难。

第二阶段,死亡率迅速降低,生育率仍处于较高水平,人口大规模增长。此阶段,社会向工业化社会转型,现代化初见端倪。农村向城市的人口迁移速度加快,且为主要流动模式。农村之间基于垦荒的人口流动也在增加。此时,帝国主义兴起,国际迁移开始增加,帝国主义国家的大量国民向国外寻求殖民地。国内与国外循环流动增加,迁移的主体主要为政治家、军人、技术人员和其他国家高级专业人员。

其背景为,最初发生在英国而后蔓延至北欧及西欧的工业化革命。死亡率的迅速下降,使得农业人口急剧增加,而生产关系及生产体系的改变,又使得农村产生大量剩余劳动力,很多人在本地难以维持生计,一些人会到镇里找一些兼职,而另一些人迁移到城市寻找工作。面对本地过多的同质的剩余劳动力,此时最好的选择是向外迁移,有四类目的地可供选择:第一,本国城市;第二,正处于经济增长阶段的盟国;第三,处于农业开荒的地区;第四,欢迎外来定居者的其他国家。在本国,这个阶段也是城市急剧扩张,以及商业急剧发展的阶段。

第三阶段,生育率迅速下降,直到与死亡率相当,死亡率继续慢慢降低。此时期,对应于晚期转型工业社会。迁移情况为:对于发达国家和地区,其内部,乡村到都市的人口流动减少,乡村之间流动也在减少;其外部,向国外开拓殖民地的人口也在减少,而循环流动人口在增加。但流动本身借助殖民主义,像病毒一样在世界范围内传播。不发达国家和地区所面临的是不完全的、不平衡的现代化,体现在生育率仍然高居不下,但死亡率已经部分处于现代化国家水平,快速增长的人口会造成强大的推拉效应,使得大量剩余人口涌入城市,或者向发达国家迁移,寻求工作机会。如果经济发展滞后,还可能造成较大的社会问题,动荡的社会也会产生大量的难民。

第四阶段,生育率与死亡率都趋于稳定。此时,发达国家和地区已经进入先进的后工业社会。农村到城市的迁移已经很少,农村之间的迁移也很少。城市之间的流动成为主流,国外人口开始回流,人口净流入增加。迁移主要人口为无技术或半技术人员,国际技术人员流动增加,而循环流动的人口继续加速。向发达地区的迁移对不发达地区的生育率水平产生了显著影响。不发达地区的城市也起到了传播现代化的作用,而发展本身也使得生育率明显下降,这种变化又由城市扩散到农村。此时,经济因素不再是迁移的主因。

第五阶段,人为控制生育率。生育由政策或者个人来决定,人口预期寿命普遍增加,对应于未来的超先进社会。城市间的迁移成为主要流动模式,对于发达国家和地区,循环流动成为迁移的主流,来自国外的净迁入者逐步减少,这种减少主要是由于发达国家移民配额的减少,以及流出国政府对人口或者资产流出的控制。农村向城市的流动逐渐减少,变成“滴流”,主要原因为基本制造业的利润较低,不足以支撑迁移的成本。在国际范围内,循环流动的人口主要是发达地区的专业人士、名人、有钱人和欠发达地区教育程度较高或者有特权的人,此时,不会出现较大规模的人口流动。

(三)内部动态及反馈理论

内部动态反馈理论的分析基石是社会资本理论,内部动态反馈理论认为迁移是链式或是呈现网络化的。与使用经济学框架或生育率变迁进行分析不同,内部动态反馈理论认为劳动力的迁移可能基于多种原因,虽然经济因素在迁移的动机方面是一个很重要的因素,但是经济一个因素还不能完全解释迁移的动机及行为。[20]国家政策、地理距离、接收机构、社会网络、文化及历史因素,在迁移模式中所起到的作用都是无法忽视的。

一旦在某一地区产生了一定数量的迁移者,迁移者的亲属及与迁移者关系密切的人,就有可能随着前期的迁移者产生迁移的行为。开始迁移的人,我们可以称其为开拓者,他们的迁移行为是可能是一种随机的选择,但是他们对后来的迁移者造成很大的影响。这些开拓者被称为“桥头堡”,[21]他们可以减少后续迁移者的风险及心理压力,通过获得朋友及亲戚的帮助,新的迁移者更容易得到雇主信息、居住信息以及找到结婚伴侣。因此,一个迁移社区的建立将增加后续迁移者迁移到某地的可能性。

在最近的研究中,基于社会网络的迁移理论也逐渐被学界所接受。社会网络可以被定义为人与人之间的纽带或节点,这种纽带或节点可以是血缘、朋友或同乡等人与人之间的关系。开拓者或者一个迁移社区的建立,降低了后续迁移者的成本。[22]当迁移达到了一定数量,就会在社区内部产生自身的社会结构,并且产生自觉的群体意识,甚至复制迁出地的文化、社会管理模式。社会网络效应可以解释为什么迁移社区有比较明确的边界,迁入地的政府甚至很难直接对迁移社区进行干预或者管理。社会网络连接是一种社会资本,使得迁移的动机和行为得到了更好的解释。除物质资本与人力资本外,社会资本在迁移中的作用也变得不可忽视。

通过上面的分析可以看出,现在还没有一个完整的理论框架来分析迁移问题,所以无法通过单一的理论直接建立可以精确预测迁移数量的模型。建立一个完整的框架还将是一个漫长的过程。