数据挖掘技术在经济统计中的应用研究
来源:用户上传
作者:吉立爽
[摘要]经济统计中会收集经济运行数据,把这些数据收录在数据库中,数据有一定的空值和噪声,这些不利于数据的挖掘,因此为了保证数据挖掘的准确性,需要对数据预处理。文章主要研究的是对数据挖掘技术在经济统计中的内涵及特点分析,并且提出挖掘技术在经济数据中的应用,以此来保证经济数据中有用价值的使用。
[关键词]数据挖掘;经济统计;应用
[DOI]1013939/jcnkizgsc202008195
1引言
随着社会经济的不断发展,在对经济数据的收集过程中也造成数据的庞大,如何对庞大的数据使用,需要采用挖掘技术来处理。挖掘技术使用在经济数据处理中,能够使数据更加简洁,方便使用者采用。
2数据挖掘技术在经济统计中的内涵及特点分析
21数据挖掘内涵
数据挖掘技术主要是对数据深层次的开发,并且在庞大的数据中对有价值的数据进行整理,实现凌乱的数据规整化的目的[1]。庞大的数据中有数据的不完整性,也有数据的模糊性,还有数据的随机性和数据的噪声性,使用数据挖掘技术以后能够把数据中有价值信息提炼,使数据信息更加有用化。使用数据挖掘在数据信息处理过程中,不仅仅只是对经济数据的转换,更是一种学科交叉特征的技术,这门学科技术中涉及神经网络学科、数据库使用学科、数据统计学科和机器学习学科。数据挖掘技术在统计学科中获得广泛的使用,使用数据挖掘技术以后获得数据信息,能够方便使用者采用,使数据使用更加简便化。实际上对数据的挖掘,其实是对数据的一个深加工过程,也是一个精加工过程,数据挖掘有着高度的数据分析自主性。
22数据挖掘技术的特点
在使用的数据挖掘技术中,主要有着以下三个方面的特点:一是数据信息量大,能够挖掘的数据中有着信息量巨大的特点,挖掘技术需要处理的信息非常大,有的时候需要处理的数据可以使用GB或者是TB来形容[2];二是在数据库的建立中,如果用户不知道需要使用什么信息时,只需要输入关键词就可以实现查找;三是在社会经济不断发展的今天,经济信息量也在不断地增长,经济信息数据库也需要不断地扩展容量来满足发展需要。同时,在对用户的使用时,还要不断提高搜索的精准度,使使用者能够更加轻松地查找需要的信息。
3数据挖掘技术的应用
31预处理方法运用
对数据的使用时首先需要对数据的收集,但是在收集的数据中不一定完整,有些数据会出现不统一的情况,而有的数据内容不能够使用,还有的数据内容完全不符合收集要求,因此对于收集的数据需要使用处理方法[3]。数据预处理是数据基础处理的一种方法,使用预处理在经济数据收集中能够预先对数据的处理。数据预处理主要包括三个组成部分:一是数据的变换;二是数据的集成;三是数据的清理。
数据清理中主要是把收集的经济数据里面存在的一些数据不符合以及数据不全面的内容去除。采用清楚法一般会采用四种方法:一种是频率统计法,另一种是预测法,还有一种是平滑法,最后一种是均值法。使用这些方法需要具体情况具体分析,在不同的经济数据分析中需要采用不同的方法。比如在经济统计数据中存在噪声或者是空值数据情况时,采用的清楚数据方法可以采用均值法。同样在数据中有着噪声或者是空值情况时,也可以采用平滑法清楚。使用的均值法和平滑法的不同之处是,平滑法是采用加权平均数代替了均值法中的平均数,平滑法使用在经济数据的统计中能够更好地实现数据的真实性。均值法主要是采用均值来弥补数据中的空缺,这种方法也是能够获得准确度较高的数据。这些统计方法中都是各有各的特点,在实际使用过程中,需要根据实际需要的取值方法,采用不同的数据处理方法来保证数据信息的准确性。
数据集成中主要是把不相同的数据集合在一起,保证这些数据能够形成一个总体[4]。数据的集成需要注意两个方面的内容:一个是保证数据能够集合在一起;另一个是保证集合数据的准确性。社会在不断的发展,社会经济数据也是在一个不断积累的过程,造成经济数据量非常庞大。而且在提供数据的来源中也是多个方面,数据可以由官方提供,也可以是来源于个人,又或者是社会主体提供。这些不同模式的数据提供在数据的集成过程中会遇见两个方面的问题:一个是冗余问题,另一个是模式集成问题。在模式集成问题中,主要是在实体识别存在的问题,因为在对数据挖掘时,会有多个数据多种模式出现。数据中的冗余问题主要是在数据多余的情况,为了减少在数据库中数据容量问题,需要保持数据的最少化。数据收集以后会形成数据库,并且需要对数据的挖掘,挖掘时采用不同的方法把数据的内容呈现出来。经济数据的挖掘工作中,是对经济数据的一次深加工过程。使用挖掘数据技术以后,呈现出来的经济数据更加简单化,为数据的使用者提供便利,也可以为决策者提供数据的支撑。
数据变换主要是使用不同的方法对数据转化,保证转化以后的数据能够满足数据挖掘的要求,数据的变换中包括两个方面的内容:一个是数据的规模化;另一个是数据泛化。其中在数据的规范化中又包括了以下方面的内容,分别是最小化规范、最大化规范和零均值规范。数据的泛化中主要是在高层次的数据替换低层次的数据,这个方面包括了数据的连续性问题。在现在的数据处理中,很多方法是不能够连续性处理数据,造成的后果是出现数据的离散化。在对经济数据的收集过程中,实际上需要尽量减少对数据的收集,减少数据的收集又称作概念分层。
32决策树方法
決策树方法在经济数据统计中运用,这种方法是一种快速分类法,决策树方法能够使数据直观地呈现出来[5]。对于收集的经济数据需要挖掘其中有用价值,因此需要对收集的数据采用系统的分析。数据在系统的分析以后是对数据的输出,分析数据的输出在挖掘数据程序中是重要的步骤,因为输出数据的质量直接关系使用者的效率。特别是经济决策的管理者,对经济做出调控措施时,需要数据的有力支撑。
经济数据使用决策树分析时,需要构建完善的决策树结构。决策树结构建立需要从两个方面来进行:一方面,建立好分析输出的基本模型,运用训练集建立一棵决策树,而且还要做到精简决策树;另一方面,对已经建立完成的决策树做出数据分类,分类工作开始时使用决策树的根部开始,最后到达树枝,一直到数据输入满足设置为止。使用这种分类是一种递归的过程,需要开展时逐步完成。实际使用决策树时,要实现决策树的停止,有两个条件:一个是节点上所有的数据全部归类为同一个类别,这种情况下数据会停止;另一个是已经没有分类属性可以继续对数据进一步的再次分割。在使用的决策树中,主要是解决数据挖掘中的两个方面问题:一个是数据挖掘预测问题;另一个是数据分类问题。
决策树完成构建以后,决策树可以根据实际使用的需要开展调整工作。开展调整工作是非常的需要,因为只有做出适当的调整,才能够使决策树中的数据内容能够满足使用者的需要,而且使用调整技术以后,还可以实现减少决策树数据输出的起伏变化,以此来保证决策树的使用稳定性和保证信息的质量。
4结论
综上所述,在经济数据的统计工作中,使用挖掘技术能够保证有价值的信息使用,具体的挖掘技术使用在统计经济中,主要包括两个方面:一个是在使用预处理方法运用;另一个是决策树方法运用。做好这两个方面的运用,能够保证统计经济数据更好地发挥价值。
参考文献:
[1]廖友国,熊建益,沈波数据挖掘技术在现代经济统计中的应用思路分析[J].商讯,2019(11):106-107
[2]邢静数据挖掘技术在经济统计调查中的应用研究[J].现代经济信息,2019(7):132
[3]马长青数据挖掘技术在经济统计中的应用[J].现代营销(经营版),2019(4):144
[4]赵舰波数据挖掘技术在经济统计中的应用探索[J].经济研究导刊,2018(12):187-188
[5]赵彬数据挖掘技术在经济统计中的应用探索[J].南方企业家,2018(2):226
转载注明来源:https://www.xzbu.com/2/view-15145327.htm