用于精准预测的人工蜂群聚类数据挖掘算法研究
来源:用户上传
作者:
摘要:为了提高数据挖掘算法的查全率,为精准预测工作提供更加精准的数据支持,利用人工蜂群聚类技术在传统数据挖掘算法的基础上进行优化设计。针对不同的精准预测任务准备对应的数据样本,并通过选择、预处理和数据转换三个步骤,实现对初始样本数据的处理。利用人工蜂群聚类技术分类样本数据,并剔除离群数据。在设置关联规则的约束下,得出数据挖掘结果。通过算法性能的测试对比实验得出结论:与传统的数据挖掘算法相比,人工蜂群聚类数据挖掘算法的查全率提高了1.3%,将其应用到精准预测工作中,可以有效的降低预测误差。
关键词:精准预测;人工蜂群;聚类数据;数据挖掘算法
中图分类号:TN929 文献标识码:A 文章编号:1007-9416(2020)10-0000-00
0 引言
预测是根据历史和当前已知因素,运用已有的知识、经验和科学方法,对未来环境进行预先估计,并对事物未来的发展趋势做出估计和评价。为了保证预测结果的精准度,在当前预测方法的基础上提出了精准预测方法,这种方法延续了传统预测方法的一般步骤,但在实际的预测过程中选择更加精准的历史和当前数据,在预测过程中严格控制预测误差,从而保证预测结果的精准度[1]。精准预测技术的正常运行要求提供精准的历史数据和当前数据,因此数据挖掘算法经常被应用到精准预测工作当中。数据挖掘是从大量的数据中自动搜索隐藏与其中的有着特殊关系性的信息的过程,数据挖掘算法的实现需要借助计算机设备,通过数据统计、在线分析、数据处理、情报检索、及其学习以及模式识别等多种方法来实现对目标数据的挖掘[2]。然而当前的数据挖掘算法存在挖掘结果精度低的问题,将其用于精准预测工作中会导致预测结果存在严重误差,为了解决上述问题,提出了人工蜂群聚类技术。人工蜂群聚类技术通过各人工蜂个体的局部寻优行为,最终在群体中使全局最优值凸显出来。而聚类技术以相似性为基础,将具有较高相似度的数据聚类在一起。通过人工蜂群聚类技术的有机结合并将其应用到数据的挖掘过程当中,可以挖掘出目标数据集当中的一系列最优数据集合,将数据挖掘结果应用到精准预测工作当中,便可以得出精准的预测结果。
1 人工蜂群聚类数据挖掘算法设计
1.1 数据准备与处理
数据准备与处理的过程就是数据收集和预处理的过程,通过数据的选择、预处理和数据转换三个步骤得出初始数据的处理结果[3]。其中数据清洗处理的过程如图1所示。
从图1可以看出数据清洗分为四个处理阶段,分别为清洗规则的生成阶段、预处理阶段、处理阶段和数据加载阶段。通过数据的清洗可以检测出初始数据集合并解决单一数据源中或多数据源集成过程中存在的数据质量问题,直到样本数据满足数据的质量要求[4]。
1.2 利用人工蜂群聚类技术分类样本数据
人工蜂群算法模拟蜜蜂不同的分工,种群中主要分为采蜜蜂、观察蜂和侦查蜂三种类型,一个蜜源对应一个采蜜蜂,观察蜂通过观察采蜜蜂带来的蜜源信息,结合蜜源的数量和质量选择蜜源进行开采,加快算法的收敛[5]。而侦查蜂的作用是在整个区域范围内搜索可用的蜜源,从而提高全局的开采能力。假设人工蜂群蜜源表示的是目标函数的解,那么蜜源的质量能够反映出目标函数解的质量,该质量使用公式(1)表示的适应度函数来衡量。
结合人工蜂群的变异和交叉思想,分别通过采蜜蜂、观察蜂和侦查蜂三个角度执行人工蜂群算法[6]。在开始运行之前,首先需要对算法中的变量进行初始化处理,根据公式(1)开始迭代执行以下阶段,直到达到最大迭代次数。人工蜂群算法的采蜜蜂和观察蜂阶段可以表示为:
公式(2)(a)中在初始蜜源附近产生一个新的邻近蜜源,记为,表示的是此时对蜜源的第j维产生一个扰动。公式(2)(a)中为控制绕度幅度的随机数,j为常数参数[7]。在侦查蜂阶段,蜜源经过多次扰动后仍未更新,被判定为枯竭蜜源,重新搜索一个新的蜜源来代替初始蜜源,返回到采蜜阶段继续进行新一个循环迭代。结合上述人工蜂群算法进行初始样本数据的聚类处理,并诊断出源数据集合中的离群样本。定义初始数据样本集合为(公式(3)):
其中样本数据的维度为n,设置聚类中心,并得出相同类型样本数据与聚类中心之间的距离,距离计算如公式(4):
式(4)中表示的是设置的聚类中心,即为任意一个样本数据与其对应的聚类中心之间的距离,而J为各个样本达到对应聚类中心的距离综合[8]。遵循最邻近聚类法则,判断任意一个样本数据是否属于类型D,若满足公式(5)中的条件,即数据属于类型D。
由此便可以得出样本数据的分类结果。如果在样本数据中存在一个样本数据,该数据不属于任意一个聚类,则认定该数据为离群数据进行剔除处理[9]。
1.3 实现精准预测相关数据并行挖掘
为了提高数据挖掘的效率,在保证数据挖掘结果质量的同时提升数据挖掘的速度,以人工蜂群聚类技术下样本数据分类为基础,在关联规则的约束下,采用并行的方式实现对数据的精准挖掘,从而為精准预测工作提供更加准确的数据样本[10]。其中并行的两个部分分别为数据挖掘执行程序和人工蜂群聚类技术下的数据分类程序,以人工蜂群聚类分类结果为一个数据仓库得出符合关联规则的一组数据挖掘结果,为了保证两个并行程序的负载均衡,需要及时调整数据的挖掘误差,最终将输出的多组数据挖掘结果进行融合,得出的结果即为用于精准预测的数据挖掘结果[11]。
2 数据挖掘算法应用实验分析
2.1 实验目的与过程
此次实验的实验目的是为了证明设计的人工蜂群聚类数据挖掘算法的性能,数据挖掘算法的性能测试分为两个部分,分别为挖掘算法本身的查全率和算法的应用性能。实验中选择通信网络流量的精准预测作为实验环境,设置了传统的数据挖掘算法和文献[6]中提出的云计算下的数据挖掘算法作为此次实验的对比方法,分别将三种数据挖掘算法以相同的方式导入到实验环境中,保证实验变量的唯一性。 2.2 配置实验环境
实验使用多台普通的PC机设备组成Hadoop集群,在测试实验环境中分别安装JDK和eclipse软件,通过对硬件设备和软件程序的调试,保证数据挖掘算法的正常运行,图2表示的是数据挖掘算法的可视化界面。
2.3 设置实验样本数据
分别设置数据挖掘的样本数据为当前通信网络流量数据、历史通信网络流量数据和其他干扰数据。为了避免单一实验对实验结果造成的影响,采用多次实验取平均值的方式得出最终的实验结论。此次实验分为5组,具体的实验样本数据设置情况如表1所示。
2.4 数据挖掘结果分析
通过三种数据挖掘算法的挖掘,并分析数据挖掘算法的查全率,实验对比结果如表2所示。
通过对表2中数据的统计与计算可以看出,挖掘结果中数据的有效值占比分别为94.1%、95.3%和97.2%。通过与设置数据样本的对比,发现传统数据挖掘算法和文献[6]中提出的数据挖掘算法的查全率分别为98.2%和98.9%,设计数据挖掘算法的平均查全率为99.5%。
2.5 数据挖掘算法应用性能分析
将设计的人工蜂群聚类数据挖掘算法应用到通信网络数据流量的精准预测工作中,将预测结果与实际值作对比,得出有关于数据挖掘算法应用性能的分析结果,如图3所示。
同理可以将两种对比数据挖掘算法应用到通信网络流量的预测工作中,可以得出对应的对比结果。经过量化计算,发现将人工蜂群聚类数据挖掘算法应用到精准预测工作中得出的预测结果更加接近实际结果,即预测误差更低。
3 结语
精准预测一直以来都是各个行业的关键技术,在分析历史与当前数据的基础上,得出更加精准的预测结果,对于确定未来的工作方向以及调整工作方式具有重要意义。通过人工蜂群聚类数据挖掘算法的设计与应用,可以为精准预测工作提供更加精准的数据,间接的提高预测结果的精准度。
参考文献
[1]龙金辉,叶阳东.基于ReliefF特征加权的人工蜂群聚类算法[J].火力与指挥控制,2018,43(1):52-56+61.
[2]姚雅,高尚.基于混合人工蜂群的模糊聚类算法[J].计算机与数字工程,2019,47(5):1072-1077.
[3]廖伍代,朱范炳,王海泉,等.基于人工蜂群优化的K均值聚类算法[J].计算机测量与控制,2018,26(4):136-138+156.
[4]梁显丽.基于人工蜂群优化的多段支持度数据挖掘仿真[J].计算机仿真,2019,36(7):273-276.
[5]王凯杰.一种基于MapReduce的改进人工蜂群算法[J].软件导刊,2018,17(2):71-73.
[6]徐浙君.云计算下的一种数据挖掘算法的研究[J].科技通报,2018,34(11):209-215+220.
[7]谢昊,王学明.数据挖掘中几种聚类算法的分析比较[J].信息与电脑(理论版),2018(24):66-68.
[8]高忠旭,顾华东,李春鹏,等.基于水气用量的配电网线路负荷精准预测[J].浙江電力,2020,39(4):47-51.
[9]肖一兵.基于数据挖掘技术的配电网故障预测研究[J].设备管理与维修,2018(17):35-36.
[10]郭挺.基于概率统计的数据挖掘预测算[J].农村经济与科技,2018,29(24):260+262.
[11]梁显丽,杨海波.基于人工蜂群优化算法的激光传感云数据挖掘系统设计[J].激光杂志,2019,40(8):94-97.
收稿日期:2020-07-30
作者简介:金红军(1975—),男,江苏盐城人,硕士,讲师,研究方向:软件开发。
Research on Artificial Bee Colony Clustering Data Mining Algorithm for Accurate Prediction
JIN Hong-jun
(YanCheng Teacher's University, Yancheng Jiangsu 224002)
Abstract: In order to improve the recall rate of data mining algorithm and provide more accurate data support for accurate prediction, artificial bee colony clustering technology is used to optimize the design based on the traditional data mining algorithm. The corresponding data samples are prepared for different precision prediction tasks, and the initial sample data is processed through three steps: selection, preprocessing and data conversion. Artificial bee colony clustering technology is used to classify sample data and eliminate outliers. Under the constraint of setting association rules, the results of data mining are obtained. Compared with the traditional data mining algorithm, the recall rate of the artificial bee colony clustering data mining algorithm is improved by 1.3%, which can effectively reduce the prediction error when it is applied to the accurate prediction.
Key words: Precise prediction; Artificial bee colony; Cluster data; Data mining algorithm
转载注明来源:https://www.xzbu.com/8/view-15364591.htm