数据挖掘在零售电商交易风险预测中的应用
来源:用户上传
作者:
摘要:现在的电子商务交易中,网络漏洞层出不穷,导致电子商务交易风险加大。为了提高网络交易的安全,推动电子商务的健康发展,对数据挖掘在零售电商交易风险预测中的应用进行研究。公开选取数据集,在此基础上对数据进行预处理,完成面向大数据的交易进行中风险值计算。提出方法进行了分类因子的判别,克服了传统方法的弊端,在运算时间、预测结果精度均有较好的优势,最终结果优于传统方法,有效避免了传统方法收敛速度较慢的缺点。
关键词:数据挖掘;零售电商;电商交易;风险预测
中图分类号:F272.1 文献标识码:A
文章编号:1009-3044(2019)35-0001-02
随着互联网技术的快速发展以及社会智能化水平的提高,传统的商业贸易正在经历一次重大改革,电子商务显示出巨大的市场价值与潜力[1]。电子商务作为商业领域的一种新兴贸易方式,它主要是以计算机网络为应用平台、现代信息技术为媒介、经济利润为核心的现代化商业运营模式,最终目的是为了实现商业活动的低成本、高效率和便捷化。
数据库技术的迅猛发展以及数据库管理系统的广泛推广和使用,使得数据积累得越来越多。爆炸式增长的数据背后隐藏着众多关键数据,为了更好地利用这些数据,就必须对其进行合理科学的分析[2]。数据库系统虽然能够实现数据的组织、存储、管理、维护等功能,但却挖掘不了数据中隐藏的规律,也就无法根据现有的数据对市场的运行规律和未来发展趋势进行合理预测。数据库系统对挖掘数据背后隐藏的信息无能为力,最终造成现在“数据爆炸但有效信息匮乏”的状况,因此需要我们对现行的零售电商交易风险预测进行合理创新、优化。
1 数据挖掘在零售电商交易中的风险预测
1.1公开数据集选取
有关交易数据的选择,我们主要采取公开的不平衡数据集即可,使用Data Hackathon 5.X AV上保存的数据检验改进的xg-boost算法的性能[3]。一般状况下,在不平衡数据集内,样本数相对较多的被称之为正样本,而样本数相对较少的称之为负样本。数据集规模统一规定为19335*35。其中,正负样本数量之间的比例大致是60:1,因而正负样本比例严重失衡。如果应用的数据挖掘改进的SMOTE上采样算法可以在这个不平衡样本集上发挥很好的分类效果,那么就表明SMOTE上采样算法适合用于不平衡数据集的分类问题。所以,这个数据集就比较符合平衡数据的相关要求。
1.2数据预处理
有关对零售电商交易数据的预处理环节一共包括缺失值处理、特征One-hot编码、数据过采样三部分。
缺失值处理部分,输入数据比如客户历史购买信息、退款信息等一般都会出现遗漏或缺失的状况,如将这些记录直接放入回收站,将会在一定程度上影响交易风险预测的最终结果,造成结果精度误差较大,为了实现更好的预测效果,需要对缺失值进行预先处理。而有关训练集数据缺失状况详情见下表所示:
对于表1中所列的类别型字段,比方说区域分类、费控标志等字段均采取默认值-1进行补充;对于大量缺失的字段,比方说负荷特性、市场化属性、退款消费分类,就需要直接删除该特征,以免耗费过多时间成本;重要性等级字段虽然缺失较大,可考虑到其特征的重要性,需要单独保留该特征,采用-1补充;对于异常值极少的(<0.01%)字段数,直接删除即可;至于有些毫无关联(基本为0)的信息,直接删除即可[4]。
特征One-hot编码部分,特征字段主要是以One-hot分散编码,One-hot编码,也可称之为独属编码。其手段是利用N位状态寄存器去对N个数据状态进行单独编码,每一个数据状态均有其独立的寄存器位,且在任意段位,只存在一位有效。假如我们有四个样本(行),每一个样本包含着三个具体特征(列),如表2所示,借助one-hot编码能够获得具体的数据特征。而特征分散编码,一方面处理了以往分类器解决不好离散数据的问题,另一方面在一定意义上对填充特征也有积极的作用。
数据过采样部分,当正样本所占总体样本比重较低时,数据分类算法就会呈现出极为不稳定,其对交易风险的预测精度也会随之降低。从原理上来讲,預测的精准程度在很大程度上取决于正负样本能否可以利用某项程序规则进行完全区分[5]。当训练数据集的正负样本容量明显较多且所占比例相差不大时,获得这种程序的规则就有其普适性,预测的结果相对而言也会较为乐观。然而,如果数据集的正样本数量和负样本数量之间相差悬殊,同时双方样本数量都较少时,计算机对这种规则的总结就会缺乏一定的普适性,如过度考虑样本数量较少的一方,造成模预测失真。考虑到本方法中正样本(危险用户)占比较少,所以就需要通过上采样处理办法,来调改正负样本的数量,提高交易风险预测的效果。数据挖掘的SMOTE上采样算法具体描述:首先对正样本采用无放回式抽样,增加实际购买行为的样本数量,直到正负样本数量基本保持一致,为了不损坏数据原有的分布状况,对特征加以随机干扰;其次对于负样本保持不变;最后合并正负样本数据集,整合成预测所用的整体数据集。正是因为Web数据量较为庞大,界面复杂,结构缺乏统一标准。利用数据预处理那个最大限度地确保数据的精确性,能够正确的反映出客户的购买意图,更好的支持零售电商的销售决策。
1.3面向大数据的交易进行中风险值计算
在数据挖掘的基础上,对电商交易进行中风险预测过程中的资产、威胁性以及脆弱性三个基本因素进行精准识别和赋值;分别通过网络脆弱性的难易程度来评安全事件发生的基本概率以及交易风险威胁造成的损失分别进行计算,获得风险值[6]。假定T代表面向大数据的交易进行中隐性风险出现的基本概率(即可信度);A代表面向大数据的交易进行中隐性风险资产的基本识别;V代表面向大数据的交易进行中的不稳定性以及不稳定性的严重程度。根据面向大数据的交易进行中风险以及隐性风险出现概率,利用网络脆弱性的难易程度预测安全事件发生的基本概率,其计算公式如下: 式中,L表示面向大数据的交易进行过程中安全事件产生概率的计算函数。按照面向大数据的交易进行中不稳定性程度以及隐性风险威胁事件所产生的资产价值来计算隐性风险威胁造成的经济损失,详细计算公式如下:
式中,F表示面向大数据的交易进行中隐性风险威胁发生后导致的经济损失计算函数;La表示面向大数据的交易进行中隐性风险威胁所产生的资产价值;Va表示面向大数据的交易进行中计算机网络的脆弱性严重程度;按照以上分析,计算面向大数据的交易进行中隐性风险威胁事件的发生概率以及对交易和电商所产生的影响,即面向大数据的交易进行中的隐性风险值,具体计算公式如下:
式中,R表示面向大数据的交易进行中的隐性风险计算函数。同时在本文设计的零售电商交易风险预测中用二十分钟这个阙值作为时间窗口划分的默认值[7]。一旦在电商页面中客户的请求时间超过了这个阙值,就会被认为此会话结束。而在缓存页面中客户访问的页面存在两种情况。第一种是顾客点击“BACK”按钮,调取缓存中所在的浏览器页面;第二种是顾客多次访问该页面,这些页面均列为相同会话中。通过这两种情况,电商能够迅速判断出此客户的潜在价值,降低交易过程中的风险度。
2 实验与效果分析
为了更加清晰的确定本文提出的基于数据挖掘的零售电商交易风险预测的实际应用效果,特与传统的零售电商交易风险预测进行对比,对其预测率的大小进行比较。
2.1实验准备
为保证实验的准确性,选择100个零售电商交易样本,在保证其他条件不变的情况下,将两种零售电商交易风险预测方法置于相同的实验环境之中,进行风险预测能力的实验。
2.2实验结果分析
实验过程中,通过两种不同的零售电商交易风险预测设计同时在相同环境中进行工作,分析其预测率能力的变化。实验效果对比图如下所示。
通过对实验结果的对比能够得出结论:本文提出的方法不管是在运算时间上,还是在预测的结果精度上均有着较好的优势,最终的结果也优于传统方法,这主要是由于本文方法进行了分类因子的判别,克服了传统方法的弊端,有效避免了以往算法收敛速度较慢的缺点。实验表明本文方法是一种预测快速、预测精度高、结果可信的预测方法。
3 结束语
本文对数据挖掘在零售电商交易风险预测中的应用进行分析,依托数据挖掘技术,根据零售电商交易过程中的技术难题,对交易风险预测方法进行优化,实现本文设计。实验论证表明,本文設计的方法具备极高的有效性。希望本文的研究能够为数据挖掘在零售电商交易风险预测中的应用方法提供理论依据。
参考文献:
[1]刘冠男,张亮,马宝军.基于随机游走的电子商务退货风险预测研究[J].管理科学,2018,23(1):3-14.
[2]王颖,阮梦黎.基于大数据的电商异常交易风险评估仿真[J].计算机仿真,2018,11(3):369-372.
[3]陈梅森,刘文彬,王良缘,等.挂牌交易模式下考虑合约和日前收益的风电商灵活合约制定策略[J].现代电力,2019,19(1):1-7.
[4]赖俊明.电子商务平台售假现象及打假策略[J].企业经济,2018,16(5):101-108.
[5]彭晓咖,周发明.农村电商经营效率研究一基于消费品下行的模型分析[J].农业技术经济,2018,12(12):111-118.
[6]李泽凡.电商经济发展中存在的法律问题及对策——以北京出台双11规定为例[J].成功营销,2018,12(12):93-94.
[7]易绍华.跨境电商企业”走出去”面临的挑战与建议——以阿里巴巴进入澳洲市场为例[J].中国发展观察,2019,29(8):61-62.
【通联编辑:张薇】
收稿日期:2019-09-05
作者简介:常春燕(1985-),女,河南泌阳人,硕士研究生,讲师,研究方向为电子商务。
转载注明来源:https://www.xzbu.com/8/view-15123553.htm