您好, 访客   登录/注册

大数据视角下的统计学理论创新研究

来源:用户上传      作者:

  【摘要】随着大数据时代的到来,传统统计学面临着创新和发展的新局面,结合大数据特征,需要对统计理论进行创新和重新构建,其中统计方法、总体理论存在价值、统计结果评价标准等的重建成了亟待解决的问题,本文就此进行了分析和探讨。
  【关键词】大数据技术  统计学理论  创新
  随着大数据应用,信息获取和存储能力不断提高,同时成本不断下降,其应用优势也使大数据技术在各种领域中得到了广泛应用,对科学技术的发展产生极其重要的影响。在产生大数据的数据源中,通常具有实时性和高速度性的特征,因此对数据分析和处理系统也提出了实时性和高效性的要求,而传统统计方法已无法适应目前大数据的研究和分析,需要对统计学理论进行创新和改进。
  一、传统意义下的统计学理论
  传统统计学理论中,主要包含三种类型的统计方法:描述统计方法,主要处理非随机非概率数据,比如社会调查、指数编制等;随机现象的统计方法,比如数理统计方法、概率论等;特殊方法,主要是针对相关联的特定学科的处理方法,比如环境科学、经济统计方法等。
  由于受到数据采集、处理工具和能力的影响和限制,跟统计相关的数据信息的全部采集无法实现,因此通常统计学理论和方法都是基于样本的基础上展开的,即使能够采集全部数据,但也会因投入过大而选择抽样的方式进行。而作为统计学理论中最佳的,统计分析方法和抽样方法,也只能在某些方面或特定方面最大限度的还原总体特征,而且也仅是统计对象大量特征中的极小部分,其他部分特征依然有待挖掘。
  在抽样理论基础上建立的传统统计学,通过以点带面的统计分析方法,对因果关系进行利用和强调,并根据统计分析结果,对统计对象的总体本质进行推断,从而形成的集采集、整理、分析、研究数据为一体,并对数据内部规律进行探索的科学。
  二、统计学与大数据的关系
  事物通过科学的计量单位以及用数来表现其特征,形成具有科学依据的数据,能够通过对数据的测量和观察,对社会现象、自然现象等的内部变化规律进行了解,或对已有的理论和假设进行检验,使具有理论意义和实际意义的数据得以产生。统计学理论即是从数据中取得科学数据的理论。
  大数据分析能够使数据在科学研究、认知世界、传达事物特征等方面充分发挥其功能和重要性,能够对不同需求的基本要求予以满足和充分表达。而大数据的主要作务为数据内在规律的挖掘、数据与知识的转化、实际问题的解决、未来结果的预测等方面,这些也需要针对大数据,通过提取、挖掘、分析数据等方式,对数据内在的本质和规律进行了解,这也与统计学密不可分,同时也需要对统计学理论进行改进和创新。
  数据统计历经了少量数据的采集、最大限度的收集数据、样本数据的科学利用,以及各类数据的综合利用等过程,目前已发展到大数据,为了适应数据不断增加的发展历程,统计理论分析也产生了统计分组法、模型方程法、大量观察法、综合指标法、归纳推断法、数据挖掘法等,同时计算机软件技术应用程度也越来越深入。在大数据背景下作为数据分析的核心,统计学也被赋予了数据分析新任务,需要对统计新理论、新技术、新方法进行创新和挑战。
  三、统计学理论创新
  传统统计学主要针对总体抽样进行数据收集,并整理,分析和描述样本数据,从而对所测对象的总体本质进行推断,其所采用的样本抽取的方式已无法适应目前大数据的特点,因此对统计学理论提出了新的要求和挑战,需要统计学对大样本标准、选取形式、样本先取标准进行调整和重新确定,对统计软件进行开发和升级,使统计质量提高,成本降低,作用领域扩大等得以实现。
  (一)抽样和总体理论存在价值
  传统统计学从客观存在的总体进行样本数据的提取,对抽样进行观测,从而通过所得到的数据对总体进行认识,在大数据背景下,需要将全部海量数据作为一个高纬度的大样本集合,按照传统统计方式进行抽样,使样本容量减少,同时又要达到所需要的精度,较难实现,同样对变量进行压缩、降维、选择、分解等使数据复杂程度降低,也会影响数据的精度。在大数据中融合了多源泉、多学科领域、混合数据,同时存在着学科边界模糊、学科之间数据融合、各范畴数据合为一体,互相重叠的特点,仅通过传统统计学的抽样方式,完成对数据的统计和分析是无法实现的。
  在大数据背景下,需要对传统统计学中的抽样理论、样本以及总体等概念进行突破和改进,是对总体和样本等概念不再使用或是进行重新定义,以及如何对总体,抽样样本的定义进行修正等问题,都是统计学理论需要改进和创新的至关重要的问题。
  (二)统计方法重构
  利用传统统计学的群体行为、结构描述和高纬度表达等的分析方法,无法在大数据中精准体和表达大数据的时效性,異构性、突发性,交互性的特点,因此假设-模型-检验的统计方法也需要通过新的理论体系的建立进行引导,通过新分析模型的建立,对数据噪音进行有效去除,同时对有价值的数据进行筛选,再将不同类型的数据进行整合,对数据进行快速分析,并得到相应的分析结果,这些问题都需要进一步研究和解决。
  对大数据进行统计分析,会涉及到空间纬度、时间纬度和数据本身的纬度三个方面,如何更好的对大数据的特性和复杂性进行深入全面的分析,对大数据的不确定性进行准确掌握,同时对大数据计算模型进行高效构建,成为了大数据统计分析的重要和关键突破口。因此统计学理论需要不断的发展和完善,已适应和满足数据量以指数级增长的大数据分析的需要。
  (三)统计结果评价框架的构建
  统计分析评价标准在大数据背景下也需要进行改进和创新,对于传统的有效性评价和可靠性评价,都是基于抽样统计理论基础产生的。
  通过概率方法对样本对总体把握程度进行衡量即是可靠性评价,其评价水平也存在着一定的争议性,主要体现在显著性水平的确定方面,而对于大数据而言,已脱离了样本推断总体的理论程序,则可靠性、置信水平等如何确定及以什么做为依据便成为了问题。
  通过真实值和观察值之间的吻合程度以及抽样分布的标准差等,来判断误差的大小,即真实性作为有效性评价,通常无法衡量准确性,同时精确性也只能就样本数据而言,因此抽样误差的计算和控制可以实现,而非抽样误差通常只能通过控制样本量来实现,样本量较小的样本,能够对非抽样误差予以有效控制和防范。而对大数据所具有的特性而言,非抽样误差难以控制和防范,准确性评价也难以实现。
  在大数据视角下,需要对现在的统计学理论加强分析,确定针对大数据分析,统计学理论哪些还有价值和意义,不适用的有哪些,同时对需要加以改进和创新的理论进行研究,使统计学理论通过创新能够更好的适应大数据的发展需求。
  四、结束语
  随着科技和经济建设的发展,各个领域及社会发展数据以指数级速度增长,也推动了大数据时代的到来,对于传统技术和传统观念都带来了极大的影响,统计学理论也面临着改进创新的新要求,要求加大对新的统计方法的研究,对统计学应用范围扩大,更好地适应和满足大数据发展的需求。
  参考文献:
  [1]胡云霞. 大数据背景下统计学教学改革与创新研究[J]. 现代商贸工业, 2018, (35).
  [2]宋瑞雪, 周晏羽, 黄扬艺. 大数据环境下统计学改革研究[J]. 四川水泥, 2017,(1).
  [3]刘超, 朱长存. 大数据时代经济统计学人才培养模式创新研究——基于Seminar教学法应用的视角[J]. 河北大学成人教育学院学报, 2018, (04).
  [4]曹彦林. 应用统计学在大数据背景下的应用与创新探讨[J]. 纳税, 2018,(4).
  [5]陈容, 张敏. 大数据时代下经管类专业统计学教学改革研究[J]. 信息记录材料, 2019, (01).
转载注明来源:https://www.xzbu.com/2/view-15061577.htm