您好, 访客   登录/注册

浅谈统计数据失真危害

来源:用户上传      作者: 李远萍

  你知道美女是怎么来的吗?美女都是被“统计”出来的。比如某一天你在街上闲逛,迎面走来一位女生,这时你就统计她出现在你面前时的心率,如果高于120次,就绝对可以称之为美女了。用数字说话,数据来源是由数据采集、数据处理、数据分析应用与服务等几个方面组成,其中,数据采集是基础,数据处理是关键,数据分析是综合,知识应用与服务是目的。现实世界中的大部分数据是有污染的,任何对数据的分析和挖掘都是建立在或多或少的病态数据基础上的,没有好的数据,就不可能提供可靠的信息和知识。下面我从几个方面谈谈统计数据失真的危害:
  一、统计数据的重要性
  “中国人口13亿,约占世界总人口的21%”“2013年贵州高考生总人数247895人”“国家发改委宏观经济研究院副院长马晓河6日在此间公开表示,今年中国经济的最大亮点是国内生产总值增幅达11.5%,总量在去年21万亿元人民币(下同)基础上突破23万亿元大关,首次超过德国,仅次于美国和日本,跻身世界第三”。这些数字就是统计数据。随着社会的发展,统计学在我国的地位越来越高,也越来越受重视。统计学就是一门横向的学科,统计方法与数据挖掘和知识发现技术应运而生,并与实质性学科相结合,才产生了相应的统出强大的生命力。数据挖掘就是从大量的、计学分支,如统计学与经济学相结合产生了从不完全的、模糊的数据中,提取有用的信息和经济统计。
  首都钢铁公司的董事长对统计数据工作这样概括:“一个企业的领导人,离开统计数据就无法工作”。中国三十年的改革开放使中国经济有了巨大的变化,在世界也有了一定的地位,但根据国家统计局调查显示,从人均收入的数据来看美国的人均收入是:36300美元,中国人均收入是:2010美元。说明我们与发达国家之间还存在着很大的差距。这些统计数据能让我们清楚地知道差距,根据差距制订出更好更多的发展计划和策略。
  例如:我国的计划生育20世纪70年代以来全面推行,1982年定为基本国策,2001年成为国家法律,《中华人民共和国人中与计划生育法》,就不是政策了。计划生育的方针、政策、措施制度等,主要意义是有效地控制人口数量的增长过快的情况,以防人口数量增长过快直接影响国家经济增长的环境、资源的不足的矛盾,以致破坏社会的和谐和稳定。为什么会提出计划生育国策?依据是什么?这应该归功于统计数据。因为我国从1962年到1972年,中国年平均出生人口是2669万,累计出生了3亿,1969年人口突破了8亿,从20世纪60年代开始人口与经济、社会、资源、环境之间的矛盾逐渐显露出来。我国计划生育的国策实施,社会得到了更为轻松的发展空间,人民得到了更多的实惠,近30年来我国经济快速发展,成为世界的焦点,成效显著。
  今天的社会,统计已相当发达,无论是资料搜集方法研究,还是统计规律研究,其目的都是为了认识我们所研究的对象,或者说认识统计总体。统计工作者从调查开始到整理出对外服务的系统资料,这一过程使人们对统计总体的外貌有比较清楚的认识,如果我们能再从数字后面找出内部特征,就能总结出现象发展的规律性,结合社会经济运行的法则,就可以提出管理社会经济的有效建议,信息往往是被大量复杂的数据项隐藏,有些数据是冗余的,有些数据是完全无关的,它们的存在有可能影响到有价值规则的发现,这必然要求我们在数据处理过程中把好数据关,即选择什么样的数据,如何进行数据清理,对选择好的数据如何处理、要进行哪些处理,只有过好数据关才能保证整个基于统计分析的数据挖掘工作的顺利完成。
  二、统计数据失真及危害
  随着我国经济的发展,统计思想及统计工作在我国经济发展中的地位越来越重要,在当前我国统计工作中,认清统计的真谛、领会统计思想,对统计本身来讲,有利于提高统计水平和统计工作者的整体素质。在国家政治经济生活中,统计已经成为重要的管理手段和决策依据。然而,“注水数字”“政绩数字”屡禁不止。国土资源部发布的最新研究报告显示,自2001年以来的9年中除了
  2008年房价都在上涨。而去年我国住宅均价上涨了25.1%,为2001年以来最高水平,即便25.1%的上涨幅度统计,有民众也不满意。比如说,就北京城区的居民而言,2010年房价增长的比例远超过25%,这种状况让人感觉看不清哪个是真、哪个是假,不知道该信哪一个、不信哪一个,于是乎,有人拒绝相信任何官方的统计数据,有人专门挑对自己有利的数据来功利性地相信一下。
  1959—1961年,在20世纪的中国及至世界的灾害史上,是极不寻常的三年,中国科学院的一份国情报告中曾经提到:三年困难时期,因粮食大幅度减产,按保守的估计,因营养不足而死亡约1500万人,成为本世纪中国最悲惨的事件之一,这是一段被尘封的灾难历史。这是一幕不应该忘记的历史悲剧。是什么原因造成这一悲剧,就是统计数据的失真报道。这三年明明是“严重干旱”,可是这种说法却得不到科学统计数据的支持,报道却是1959—1961
  年期间,中国大地上风调雨顺,全国的旱涝态势相当正常。
  统计数据收集程序是层层上报,统计数据要经过乡、县、地(市)、省四级加工处理才能最终上报到国家,过程中可能受到各种干扰的情况在层层上报的过程中,有些地方出于政府业绩等原因,可能会人为“润色”数据,影响了统计结果的真实性和准确性。国家统计局数据管理中心主任许剑毅对此就曾表示:“有人将之形象地比喻为,一个瘦子上了公共汽车,下车时就变成了胖子。由于过程不透明,在车上发生了什么谁也不知道。”
  三、统计数据失真的控制
  1.加强统计法律法规
  依据统计法律法规和统计报表制度建立一套完整的统计管理规章制度,加强对统计数据、原始记录、原始凭证、台账报表的管理,规范统计数据采集、整理、计算、汇总、审核的方法和程序,使统计数据经得起检查,把好数据质量关,充分发挥统计参谋和助手的作用,及时发现问题,有效控制解决问题,使基层统计真正成为反映基层经济运行状况的一面明镜。首先,要确保原始记录的准确性。要把提高统计数据质量的着眼点放在基层里,如实填写各种原始记录,严格审查各种原始记录,防止弄虚作假,并建立台账;统一指标统计口径,避免有重报漏报之处。其次,要实行分级检查,层层把关,保证统计数字的质量。最后,要坚持以提高数据质量为中心,如果数据失真,必然会对经济的发展规划产生误导,领导也无法作出科学的正确的决策,因此我们要围绕提高数据质量这个中心,认真做好统计数据工作。
  2.加强责任心的认识
  下到每个具体的统计数据填报人员,上到最后审核领导人员都要有一颗强烈的社会责任心,事实就是事实,是瞒不住、藏不住的,就像癌症病人一样,早发现、早治疗、早解决,这才是明智之举,才会有利于国家、有利于集体、有利于个人。
  参考文献:
  [1]李友俊.统计学原理与现代企业统计.哈尔滨工业大学出版社,1999-03.
  [2]姚兆贤.统计基础.中国统计出版社,2009.
  [3]初蓓,贾志琦.影响统计数据信息质量的原因及对策.科技情报开发与经济,2005(3).
  (作者单位 贵州省贵阳市职业技术学院)
转载注明来源:https://www.xzbu.com/9/view-4980611.htm