加权Apriori算法优化及其在商品销售数据分析中的应用①
来源:用户上传
作者:
摘要:针对数据挖掘中项目权重的模糊性问题,通过引入直觉模糊数表示项目的权重,并采用项目的权重和支持数计算事务的加权支持度、可能度、置信度,提出了一种基于直觉模糊数的加权Apriori算法。阐述了算法的改进思想,描述了算法步骤,并采用优化后的Apriori算法对商品销售数据进行挖掘分析。研究结果表明:改进算法解决了权重信息的模糊性问题,其挖掘结果更具价值。
关键词:Apriori算法 直觉模糊数 数据挖掘
中图分类号:F1274
文献标识码:A
文章编号:2096-0298(2019)02(b)-245-03
关联规则挖掘是经典的数据挖掘技术,近年来应用广泛且发展迅速。关联规则挖掘算法是从大量、模糊、有噪声、随机的实际数据中,得出人们隐含在其中的、有用的关联信息和知识的过程。Apriori算法是一种典型的关联规则挖掘算法,主要用来在大型数据库上进行快速挖掘关联规则。该算法的核心思想就是对目标事务库采用逐层迭代搜索的方式进行挖掘k阶频繁项目集,直至找到最高阶的频繁项目集即止,最后通过获得的频繁项目集进行关联规则挖掘,从而实现挖掘目标数据间关联关系的最终目标[1-4]。
在经典的Apriori算法中,假设各个项目的重要程度是相当的,但事实上现实生活中项目的重要性具有差异(例如商品利润)。其次,即便用引入权重来解决项目重要程度的差异性,项目的权重信息中仍然包含了不确定信息。柴岩等研究者将区间数引入Apriori算法,将权重设置为区间数,并提出了最小支持度为区间数的加权Apriori算法[5]。徐顼将三角模糊数引入Apriori算法,提出了一种基于三角模糊数的Apriori算法[6]。虽然区间数、模糊集、三角模糊数的引入解决了Apriori算法中权重信息的模糊性,但仍不能表达权重信息的犹豫程度。例如,模糊集只能表达隶属度,而不能表达非隶属度。由于Apriori算法只考虑交易出现的概率,没有考虑不同项及交易中每一个项目具有不同的重要性,因此挖掘具有一定的局限性。而且,在实际应用中,项目的权重用直觉模糊数更加合适,它不仅可以更好地模拟生活,而且引入了犹豫度的概念,可以帮助改进置信度的计算方法。
基于此,引入直觉模糊数来表示项目的权重,对Apriori算法进行改进。
1 基本概念
1.1 数据项与数据项集
假设,={I1、I2,……,Im)是所有项目的集合,每个Ik(k =1,2,...,m)称为数据项,集合I称为数据项集,简称为项集,其中项目的个数称为数据项集的长度,长度为k的项目集称为k维数据项集,简称k-项集。
1.2 事务
2 权重为直觉模糊数的加权Apriori算法
2.1 算法改进思想
将项权重设为直觉模糊数,根据项目的权重和项目的支持数应用式(7)得到加权支持度并引入可能度概念,根据可能度进行剪枝。通过引入可能度,改变Apriori算法仅根据支持度剪枝的策略,对于可能度小于0的项集进行减枝,对于可能度大于0小于1的项集,还根据置信度大小进行剪枝,因此该算法兼顾了规则的重要性和可靠性,加大了剪枝力度,提高了算法运行速度,提取了更多有价值的规则,并根据实验证明了算法的合理性。
2.2 算法步骤
步骤3:通过L1自身连接,得到候选2一项目集C2,计算各项目集的加权支持度、可能度,删除可能度小于0.5的项目,对于可能度大干0.5小于1的项目,再计算确信度,删除确信度小于0.5的项目,得到频繁2一项集L2。
步骤4:循环执行连接步骤和减枝步骤,直到产生的项目集为空时,算法停止,输出那些频繁项集,并根据频繁项集产生关联规则。
步骤5:计算各关联规则的置信度,设最小置信度为0 5,则通过与最小置信度进行比较,得到强关联规则。
2.3 算例
以超市中商品的销售数据为例说明算法的步骤,表1为商品出售数据库,表2为项目权重。
计算这6种商品的支持数分别为6、5、6、5、2、2,则对应6种商品权重如表2所示。设已经给出最小支持度为<0,1,0,2,0.7>,根据式(7)和式(8)计算1-项集的加权支持度及其大于最小支持度的可能度,如表3所示。
由于1、2、6的可能度小于0.5,因此删除1、2、6,并计算3、4、5的确信度,均大干等于0 5,得到频繁1一项集{3,4,5},由频繁1一项集自身连接得到候选2一项集为{{3,4},{3,5},{4,5}},计算候选2-项集的加权支持度和可能度如表4所示。
由于项集{4,5}可能度小于0.5,删除项集{{4,5}}得到频繁2-项集{{3,4},{3,5}},2一项集进行自身连接得到候3一项集{3,4,5},由于{3,4,5}的子集出现非频繁项集,因此删除项集{3,4,5},这样频繁3项集为空,算法停止,得到频繁2一项集{{3,4},{3,5}}。
接着根据式(10)计算以下规则的置信度:
由此可知,第3种商品=>第4种商品,第4种商品=>第3种商品,第5种商品=>第3种商品,是具有强关联关系的。这对于商品的管理、合理的设置商品的摆放顺序等方面都很有帮助。
3 结语
本文提出了一种改进的Apriori算法,將项目属性设置为直觉模糊数,这样同时表达了隶属度、非隶属度、犹豫度三个方面的信息,通过自身连接得到候选项集,通过用每个项目的支持数与权重相乘,得到加权支持度,并与最小支持度进行比较,结合可能度与犹豫度进行剪枝,得到频繁项集,循环执行连接与剪枝步骤,直到频繁项集为空,结束算法。再通过比较所得规则的置信度来得到强关联规则。算例表明,与经典Apriori算法比较,改进的Apriori算法具有一定的优势,它可以挖掘出更具价值、更有意义的强关联规则,且项目权重的表示方式更贴近商品销售数据的特征,更容易得出各个项目的权重值。
参考文献
[1]佘朝兵.关联规则挖掘算法在校园超市营销的应用研究[J].数字技术及应用.2018,36(7).
[2]阮梦黎,吴磊.基于双阈值Apriori算法和非频繁项集的关联规则挖掘方法[J].2018,35(12).
[3]唐杰,程云章.Apriori算法在医疗设备健康管理中的研究与应用(J].生物医学工程学进展,2016,37(3).
[4]贾克斌,李含婧,袁野.基于Apriori算法的数据挖掘在移动医疗系统中的应用[J].北京工业大学学报,2017,43(3).
[5]柴岩,张京辉,鲁新新.最小支持度为区间值的加权Apriori算法[J].辽宁工程技术大学学报,2016(12).
[6]徐顼.基于三角模糊数的关联规则方法研究[D].兰州交通大学,2007.
转载注明来源:https://www.xzbu.com/1/view-14863450.htm