基于聚类分析和判别分析的我国主要省市综合实力状况评价
来源:用户上传
作者: 祝新亚 李许坚
摘要:本文选取了国家统计局出版的2008年中国统计年鉴中的一组数据,采用了可以大致代表各省市综合实力状况的13个指标,然后使用系统聚类的Ward's Method: Ward(最小离差平方和法)的Squared Euclidean distance(欧氏距离的平方)量来对2008年全国主要省市综合实力状况主要指标进行聚类分析,确定了全国的4类社会发展区域,并给出了各类发展区域的优势和特点。再对其中几个没有参加聚类分析的省份(甘肃、青海、宁夏、新疆)进行判别分析,并利用判别分析方法对聚类分析的评价结果进行校验,最终确定全国的4类社会发展区域,希望可以为政府决策部门对社会发展的规划提供一定的依据。
关键词:主要省份 综合实力 聚类分析 判别分析
一、引言
本文根据各省的综合实力发展指标,将全国主要省份综合实力发展分为4个等级,从而可以为政府决策部门对社会发展的规划提供一定的依据。日后通过政府政策的调整,各省再发挥各自优势力量,抓住机遇,社会全面发展和可持续发展能力一定会进一步提高。
而综合实力发展状况评价的难点在于反映综合实力发展的指标众多,每项指标又会从不同角度反映综合实力发展状况。所以,依据它们作综合评价有一定难度。但我们可以看到,多元统计分析正是将多维因子纳入同一体系加以综合研究的定量化方法,从而很好解决了这一问题。为了更好地分析综合实力发展状况,本文对样品进行了分类。
在多元统计分析中,常常会使用聚类分析和判别分析来解决样本的分类问题。在事先并不知道应将样品或指标分为几类的情况下,可以使用聚类分析根据样本或指标的相似程度,将样本或指标归组分类;而在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。
中国作为全世界最大的发展中国家,经过这些年不断的发展,在整体综合实力发展上取得了长足的进步。但由于历史和现实的原因,全国的发展存在地区不均衡状况。所以,根据社会发展状况和区域特点,可将全国规划为4个社会发展圈。
而这种根据区域规划划分的社会发展圈,虽对全国各省的社会发展有着重要的意义,但一个不容忽视的问题是:4种社会发展圈内不同的省由于各种原因,其在社会发展上存在不均衡和发展水平不相同的情况。因此,本研究的目的是根据各省的综合实力发展指标,将全国主要省份综合实力发展程度分为4个等级,为政府决策部门对今后发展的规划提供一定的依据。
二、指标体系的选取
文中将根据中国统计年鉴中反映2008年全国主要省市综合实力发展的主要指标: 人均GDP(X1)、人均新增固定资产(X2)、人均居民消费支出(X3)、人均高等学校数(X4)、人均卫生机构数(X5)、参加城镇职工基本医疗保险人数与人口数的比例(X6)、人均全社会建设总规模(X7)、城镇单位就业人员数与人口数的比例(X8)、人财政收入(X9)、人均城市绿地面积(X10)、城镇居民人均家庭可支配收入(X11)、国际旅游(外汇)人均收入(X12)、教育经费人均情况(X13)等13项主要指标对全国29个省(自治区)和直辖市进行聚类分析和判别分析,并根据分析结果对各省市的综合实力发展状况进行研究。
三、聚类分析的具体应用和结果
本文采用系统聚类的Ward’s Method: Ward(最小离差平方和法)的Squared Euclidean distance(欧氏距离的平方)量来对全国各省社会发展主要指标进行聚类分析,使用的是SPSS13.0的Classify->Hierarchical Cluster程序。
需要说明的是,在通常的分析中,由于各个指标的量纲差异,通常需要先使用SPSS的Discriptives Statistics->Discriptives程序将各变量进行量纲标准化处理,然后将处理结果存储到新的变量中,最后在进行聚类分析时使用标准化后的变量进行聚类分析。具体的指标数据见表1。
分析得到的结果见以下的分类表和龙骨图:
通过分类表和龙骨图可以清楚地看到,2008年各省综合实力发展的层次是:
Ⅰ类区:北京、上海。
其中,北京是全国的政治、经济、科学文化与国际交往中心,其综合经济实力保持在全国前列。第三产业规模也居中国大陆第一。北京还是中国重要的金融中心和商业中心之一,并且作为重要的旅游城市,2008年奥运会的举办更是带动了它的发展。上海是中国第一大城市,交通便利,腹地广阔,地理位置优越,是一个良好的江海港口。作为中国大陆经济最发达的城市之一,它是全国最大的商业中心,有着众多的国际商业组织和跨国公司,诸此种种都带动着上海的建设发展和居民收入的普遍提高。这两个直辖市的综合实力发展情况在全国属于最高水平。
Ⅱ类区:江苏、浙江、天津和广东。
江苏是中国的经济大省,全省综合经济实力在全国一直处于前列,近年来对外开放也日益扩大。浙江是我国高产综合性农业区,旅游资源亦非常丰富。天津是华北一大工业城市,油气、海盐资源丰富,又有一定的工业技术基础。而且天津港是中国北方最大的综合性贸易港口,近年来天津迅猛发展,充分反映了它在滨海新区开发开放强有力的带动下,经济发展质量显著提高,发展速度明显加快。而广东改革开放以来创新发展观念,转变发展方式,发展迅速,省内有许多规模和效益较好的大型工业企业。总而言之,Ⅱ类区省份的综合实力水平较高,处于全国的第2类水平。
Ⅲ类区:河北、山西、内蒙古、辽宁、吉林、黑龙江、福建、山东、河南、湖北、湖南、海南、陕西。
Ⅳ类区:安徽、江西、广西、四川、贵州、云南。
它们中的大部分处于全国的中部地区,经济欠发达。由于历史和地理等原因,不仅在2008年,直至现在,这类省份的综合实力发展水平仍处于全国的比较落后的水平,在以后的发展中需要利用国家西部大开发和开发中部等有利政策,结合自身优势和特点,提高该类省份的综合实力发展水平。
四、判别分析的具体应用和结果
聚类分析后,需要再对其中几个没有参加聚类分析的省市(自治区)进行判别分析,才能最终确定全省的4类综合实力发展区域。使用SPSS13. 0的Classify ->Discriminant程序对先前未进行聚类分析的甘肃、青海、宁夏和新疆等省份进行判别分析,以确定这些省份所属的综合实力发展区域。
1.判别分析的检验结果见表3
检验协方差矩阵相等的Box’s M值为70.765,远远大于0. 05,因此,显著性水平0. 05下,认为各类协方差矩阵相等;另外,F检验的显著性概率 ,说明判别是显著性的,即判错的可能性很小。
2.判别结果
根据上面的Fisher线形判别函数模型和系数表,然后依据待判区,我们可以得到各类Fisher线形判别的模型。然后依据待判省份的各指标值,利用上面的判别函数得出判别结果见下表4:
从判别结果中可以看出,甘肃、青海、宁夏和新疆都属于社会发展的Ⅳ类区,这种判别结果与现实生活中这些省份所处的社会地位是大致相符的。这说明我们前面的聚类分析结果是成功的。
五、 结束语
通过上面的聚类分析和判别分析,根据各省市综合实力发展的主要指标,结合SPSS软件的应用,我们将2008年全国主要省市的综合实力发展水平划分为4类水平:Ⅰ类区、Ⅱ类区、Ⅲ类区和Ⅳ类区。通过分析比较各类省市的综合实力发展状况,可以为全国的社会协调发展提供依据。相信通过政府政策的调整,各省市(自治区)发挥各自优势力量,抓住机遇,它们的经济发展一定会再上新台阶,质量和水平会明显提高;民主法制建设会不断加强;社会全面发展和可持续发展能力会进一步提高;城乡居民收入会不断增加,生活质量也将明显改善。
参考文献:
[1]国家统计局,中国统计年鉴2006-2008[M].北京:中国统计出版社,2006.
[2]于秀林,任雪松,多元统计分析[M].中国统计出版社,2006.
[3]刘大海,李宁,晁阳. SPSS15.0统计分析从入门到精通[M].清华大学出版社.
[4]潘淑霞,孙王杰,张若东,吴希,数据分析与SPSS软件应用[J].吉林医药学院学报,2005(9).
[5]方开泰,潘恩沛,聚类分析[M].地质出版社,1982.
转载注明来源:https://www.xzbu.com/2/view-506386.htm