您好, 访客   登录/注册

大数据挖掘中的数据分类算法技术

来源:用户上传      作者:

  摘 要:本文对数据挖掘以及分类算法的内涵进行阐述,对数据挖掘中常用的分数算法技术改善策略进行分析,旨在推动我国数据分类算法技术的高速发展。
  关键词:大数据挖掘;分类算法技术;大数据分析
  引言
  在数字化办公环境下,我国各个行业领域开始选择应用大数据挖掘概念技术,给我国计算机产业的发展带来了发展机遇,促进了各式分类技术以及算法技术的高速发展。
  一、数据挖掘
  大数据本身是并不存在有效的价值意义,是需要对大数据进行有效处理才能让大数据产生实质性价值意义,为此大数据分析、大数据挖掘处理工作极为重要。大数据挖掘主要是指需要从海量、模糊性高、随机性高的数据信息中提取人们不曾了解,但十分有价值的信息过程。数据挖掘对象相对广泛,不仅能够对数据库进行数据挖掘,同时也能对文本数据资源进行数据挖掘。
  二、分类算法技术
  分类算法技术则是对已知类别的数据进行分析,对于其中存在的分类规律进行总结,以此为基础对新的数据类别进行预测。分类算法技术的本质就是将位置样本分布到已存类别的过程,分类过程实现可具体分为两个方面,一方面是以已知训练数据集为依托,构建用于描述预定数据类集的全新模型,另一方面则是在新型构建模型的基础上,对未知的数据进行分类,实现对相关数据的有效处理。
  三、大数据挖掘分类算法技术改善策略分析
  大数据挖掘技术就是从大量数据信息中寻找能够应用价值数据信息,数据挖掘技术是互联网技术发展下的产物,涉及到数据库、统计学以及电子学等多个智能领域。大数据挖掘中常用的分类算法技术主要分为三种,分别为决策树分类算法、神经网络分类算法以及朴素贝叶斯分类算法。
  (一)决策树分类算法
  决策树分类算法是以数据集为基础,对并没有规则顺序的样本数据信息进行推算,继而得出具体分类规则的算法,是归纳学习算法类型之一,同时也是组成决策方案的重要元素。决策树分类算法能够以树式图形式表现出来,实现对系统决策方案的选择,由于其展示形式较为形象直观,能够将不同决策时期的决策类问题进行显示,决策类问题以清晰的逻辑展现,将其构建成为直观形象的树形模型。決策树算法中包含的种类相对校对,像ID3算法、C4算法以及C5算法等都是常用的算法,与其他类型的分类算法技术相比较而言,决策树分类算法具备便于理解、实现的应用优势,对于数据挖掘技术人员而言,决策树分类算法的容易理解属性能够让其快速将决策树算法应用至实际分类之中。决策树分类算法具备运行速度相对较快的特征,这是由于决策树分类算法的工作量要小于其他类型分类算法的工作量,因此决策树分类算法的总计算应用时间相对较短。决策树分类算法同时也具备算法精准性相对较高的优势,将决策时分类算法应用至数据挖掘工作中,能够帮助工作人员快速、准确的根据分类规则进行数据分类,以树式图形式清晰直观的展示重点字节。
  决策树分类算法虽然具备多种应用优势,同时也不可避免存在一系列的应用问题,如决策树分类算法在应用过程中需要对连续性数据信息进行离散化处理,只有这样才能进行分类学习,对于已经具备时间顺序的数据,需要提前对其进行大规模性质的加工处理,同时若分类类别过多,存在决策树分类算法发生错误分类的问题。为此需要对决策树分类算法进行改善,可将监督学习任务算法应用至决策树分类算法之中,在决策树形成的初期阶段进行应用,能够随着决策树分类算法记录数量的提升,借助预排序方式实现对决策树分类算法的有效改善。
  (二)神经网络分类算法
  神经网络分类算法中神经网络主要是指人工神经网络,神经网络算法通过对生物大脑结构以及生物工作状态进行模拟,进而形成动态化、灵活化的信息处理模型。神经网络分类算法的具体应用原理为,一个神经网络就是一个计算单位,一个单位是由多层神经元组成,一个多层神经元包含三个层次,即“输入层次”、“输出层次”以及“隐含层次”。神经网络分类算法的具备精度相对较高以及较强的鲁棒性优势,神经网络分类算法具备一定的自我学习能力以及记忆能力,能够有效解答部分较为复杂的问题,由于人工审计网络具备非线性拟合功能,因此能够在不具备条件背景下利用变量进行线性组合后,将其转变为非线性组合,因此神经网络分类算法具备映射较为复杂非线性内容的优势。
  神经网络分类算法同样也具备相应的分类算法缺陷,最为典型的缺陷就是神经网络建设问题,通常情况下建立先进、完整的神经网络是需要花费大量的时间精力,对于技术人员的技术要求也相对较高,因此可利用提取规则对神经网络实施剪枝策略,将神经网络中分类准确程度影响相对较小进行去除,不能对分类结果造成影响的神经元进行去除,进行简化神经网络的构建。
  (三)朴素贝叶斯分类算法
  朴素贝叶斯分类算法是以统计学为基础开展的数据分类算法,朴素贝叶斯分类算法的应用实质为借助概率形式展现数据信息的不确定性。朴素贝叶斯分类算法的应用优势在于对于空间以及时间的应用开销相对较低,因此占用的系统资源相对较少,分类算法的运行速度也相对较快,同时朴素贝叶斯分类算法也具备逻辑思维简单明确的优势,大大增加朴素贝叶斯分类算法的可操作性。
  朴素贝叶斯分类算法的应用缺点在于,该分类算法应用需要立足于独立性的假设前提,这一应用场景是无法在现实情况下得到有效满足,导致朴素贝叶斯分类算法的分类准确性降低,为此需要对朴素贝叶斯分类算法进行再次升级创新,可应用选择贝叶斯算法进行数据分类。
  结语
  总而言之,为了能够有效应对大量数据的分类统计分析,相关领域对数据分类算法技术的应用程度不断加强,需要对大数据挖掘中应用的数据分类算法技术进行完善,加强对相关数据的有效处理。
  参考文献:
  [1]李金召.数据挖掘技术在软件工程中的应用与研究[J].计算机产品与流通,2020(05):30.
  [2]谢盛嘉.大数据时代背景下数据挖掘技术的应用研究[J].计算机产品与流通,2020(05):128.
  [3]臧玉魏,谢连科,张永,张国英,吴健,白晓春.基于电力营销聚类分析的数据挖掘算法研究[J].信息技术,2020,44(04):56-59+64.
  作者简介:
  余薇(1992)女.汉族.黑龙江大庆.本科 大庆油田信息技术公司 163000 中级工程师 软件开发
转载注明来源:https://www.xzbu.com/1/view-15249143.htm