您好, 访客   登录/注册

基于PMML的电子商务数据挖掘研究

来源:用户上传      作者:

  〔摘要〕随着互联网技术的发展,电子商务进入了海量数据时代,从这些海量数据里挖掘出有用的模式具有非常高的商业价值。常规的数据挖掘模型会依赖于特定的数据挖掘平台,而目前的数据挖掘平台并不能做到随时随地跨平台交换数据挖掘模型。文章提出基于PMML的电子商务数据挖掘方法,只要数据挖掘平台兼容了PMML规范就可以真正做到跨台平交换数据挖掘模型。文章重点研究了PMML语言是如何表示完整数据挖掘模型,并就某电商平台挖掘潜在客户的数据进行实验并分析实验结果,从而验证了方案的有效性。
  〔关键词〕电子商务;数据挖掘模型;PMML;跨平台
  DOI:10.3969/j.issn.1008-0821.2015.08.012
  〔中图分类号〕F71336〔文献标识码〕A〔文章编号〕1008-0821(2015)08-0057-04
  电子商务是互联网技术迅速发展的必然产物,伴随着电子商务的快速发展,随之而来的是电子商务、网络日志、社交网络以及互联网搜索引擎等每天都在各类平台上产生大量的数据信息。IDC最新的数字宇宙研究结果表明,预计到2020年,世界上的数据存储总额将达到35ZB(1ZB等于1万亿GB字节)。信息爆炸带来的是无限的商机,目前无论是国内企业(例如淘宝),还是国外公司(例如Amazon、Ebay等)均已通过分析客户购买行为并利用分析结果提高了企业的服务质量,通过对客户购买行为的数据进行挖掘和分析可以帮助我们更好地理解客户的行为模式,进而对客户进行分类,从而制定更为精准的营销策略以及提高利润率和网络购物的渗透率。在这样的大环境下数据挖掘技术得到了迅速的发展。
  数据挖掘技术自20世纪90年代被提出以来一直在电子商务领域得到了重点研究,对于如何定义数据挖掘概念目前有很多版本,本文认为数据挖掘(又称KDD,即数据库知识发现)是针对数据的一种提取隐含在其中的信息的操作,目的是为了将数据库中大量的、不完全的、有噪声的、模糊的、随机的数据提取出来,使之变为可利用、有规律、能为决策提供支持的有价值的信息。目前国内外对数据挖掘的研究主要集中在数据挖掘领域的关键技术、关键算法研究,数据挖掘的实际应用以及有关数据挖掘理论方面研究,发掘方法与用户交互问题等。尽管数据挖掘技术在电子商务领域的应用由来已久,但它依然存在一些亟待解决的问题。主要表现在数据量巨大,数据变化速度快,数据挖掘模型中数据属性的选择十分关键;对数据变化的预测至今还没有非常成熟的技术;挖掘模型的可靠性与挖掘结果的准确性还没有统一的标准;在挖掘用户信息的前提下如何保护客户隐私的安全性也是一个亟待解决的问题[3]。本文主要针对海量电子商务数据的跨机构、跨平台数据挖掘进行研究。
  传统的小规模数据集的数据挖掘很容易在独立平台实现,然而电子商务数据面临海量、异构、多样、动态等问题,特别是当前互联网发展迅速,服务器会异地部署,数据分散导致处理过程非常复杂,在这种情况下,跨机构、跨平台进行数据挖掘交互十分频繁也十分必要。与此同时,传统的数据挖掘算法面临海量数据时需要进行改进,实际建模过程中可能出现重复执行同一个数据处理操作,在带有参数的情况下,手工执行会比较麻烦,必须借助脚本实现;在常规数据挖掘模型执行过程中,默认数据流是顺序执行,倘若存在改变执行顺序的需求,则需要使用脚本实现;传统的数据挖掘平台是用户首先在人机界面上调试好执行顺序,可以通过脚本语言来实现模型节点的自动执行、自动更新和导出执行结果;实际实施过程中可能面临批量修改现有的数据,为提高构建模型效率,需要采用脚本语言[4]实现。
  实际上,传统的数据挖掘平台都有各自的一套处理流程标准,要想实现同一数据挖掘模型的跨平台运行给数据挖掘研究带来了巨大的挑战。目前国内外关于数据挖掘在跨平台交换数据挖掘模型方面的研究还比较稀少,更没有形成统一的标准,即在一个平台上运行的数据挖掘模型还不能很轻易地迁移到另外一个平台。IBM公司的SPSS Modeler实现了用脚本语言定制一些数据挖掘过程的功能,但是定制的模型有限,而且模型仅仅适用与其系列数据挖掘工具。RapidMiner开发了适用其平台定制数据挖掘流程的脚本语言,但是这种脚本语言没有得到业界的认可[5],不利于推广。VMStudio实现了用S语言来实现数据过滤与统计的功能,但是该平台没有开放源码,不利于二次开发。跨平台的重要性不言而喻,例如在一个平台进行的数据挖掘结果可以迁移到另外一个平台进行效果评估。所以本文提出基于跨平台的PMML语言来定制数据挖掘模型,实现数据挖掘模型的真正跨平台运行。
  11PMML概述
  1999年DMG(Data Mining Group)在XML的基础上制定出了预测模型标记语言PMML(Predictive Model Markup Language)。PMML是一种与平台无关的统计和数据挖掘(Data Mining,DM)模型表示规范,它以XML为基准将数据挖掘任务规范化,可以把某平台所创建的数据挖掘模型迁移到其它任何满足PMML标准的系统或者产品中。通过定义统一的以及标准化的数据挖掘模型表达方式,PMML分离了模型的构造与应用。PMML使得数据挖掘模型的部署不再束缚于模型开发和产品整合,其框架结构图见图1,从而为将来的数据挖掘应用提供了一种创新的方法。PMML摆脱了模型开发和部署局限于某一个特定的数据挖掘平台,从而为电子商务系统、数据仓库和云计算中的数据挖掘应用提供了一种新的方法。目前已有许多公司或组织加入了PMML规范的制定,便于其推广。需要PMML语言的主要原因可以简要归纳[6]为以下3点。
  111模型交换的需要
  数据处理的任务非常复杂,有时候甚至需要不同的数据处理工具,这些不同的数据处理工具之间必须能交换处理的结果。
  112模型部署的需要
  PMML使得模型部署跨越Internet更加容易,软件提供商能更加容易的将数据处理结果导入到支持PMML标准的平台里。   113跨平台需要
  PMML提供了一种不定义模型的执行方法,只定义模型的描述跨平台方案,使得数据挖掘更具有开放性。
  12PMML结构与模型表示
  怎样从海量数据挖掘到事先未知具有潜在价值的信息,然后依据商业目的进行预测和评估,是数据挖掘研究亟待解决的主要问题之一[7],PMML标准是描述数据挖掘过程的一个规范,它按照数据挖掘任务处理步骤,定义了数据挖掘各个阶段的处理描述信息[8],主要包括头部信息、数据词典、数据预处理、模型表示、模型输出和预测评价等部分。PMML是用XML来表示数据挖掘流程的,整个PMML文档都是用XML的DTD进行描述的,一个根元素为PMML类型的XML元素的文档可以包含多个模型部分,其中数据词典和模型表示是PMML文档的核心部分。PMML规范里的元素主要分为两类:描述元素和模型元素,结构见图2,描述元素主要用来描述一些流程基本信息,例如元素的一些属性定义等,模型元素主要用来描述数据处理流程算法相关信息的。
  14基于PMML的可视化
  可视化就是利用简单界面的方式来显示数据,把用户需要的数据进行可视化呈现,增加了用户对数据的掌握程度,进而可以透彻的分析与挖掘信息的关系。PMML包含数据字典、预处理、模型等部分,非常适合进行可视化展示[10]。目前42版本支持数据可视化、模型可视化和验证结果可视化功能。其中数据可视化部分是对数据集信息的可视化,PMML文件中元素MiningSchema的属性Importance表示数据变量的重要性,可以作为可视化的数据源。模型可视化是指利用PMML文件的信息将其结构可视化显示出来,方便挖掘模式进行显示。验证可视化是指对模型验证的结果以可视化的形式展示,例如,当预测分类数据时,混淆矩阵能够用来说明预测精确度,PMML规范提供了ConfusionMatrix元素来配置混淆矩阵可视化信息。
  2实验分析
  为了验证本文提出的基于PMML跨平台电子商务数据挖掘研究方法,采用某电商平台为了挖掘潜在用户的数据进行验证,实际选取了2 000个样本,其中每一位用户为一个样本点,非潜在用户为负样本,用0表示,潜在用户为正样本,用1表示,数据存储在数据库的表结构见图3。从数据集合里随机抽取1 500个充当训练样本,500个充当测试样本,实现对决策树算法、贝叶斯算法、支持向量机和其改进算法(LIBSVM)[11]进行验证,实验结果见表1。PMML规范里的Model Explanation元素提供了一系列的评价指标来评价模型的结果,主要有针对分类模型的Predictive Model Quality元素和针对聚类模型的Clustering Model Quality元素。本文引入可视化技术把模型评价的结果进行显示,主要的形式有ROC曲线和混淆矩阵。ROC曲线是把分类模型灵敏度和特异性按照可视化方式显示,分类模型的优劣可以通过曲线下方的面积来评价,好的分类模型应该最大可能的靠近图形的左上角,简单的随机猜测模型应位于主对角线附件。混淆矩阵主要用来比较实际值与分类结果,可以把分类精度显示在一个矩阵里,矩阵的每一行代表了分类信息,每一列代表了实际的测得信息。其中部分字段的ROC曲线见图4。
  根据图4的实验效果可知,属性Co16、Co14具有很好的预测性能,属性Co13、Co11和Co15具有很好的随机预测性能,属性Co17和Co18并不适合用来预测。根据表1可知,贝叶斯和决策树算法随着样本数量的增加,训练时间也上升得很快,然而分类准确率并没有随着上升,LIBSVM单次训练时间线性度要好很多,显然SVM改进以后随着样本数据的递增,训练时间得到了很好的改善,而且分类准确率得到了很好的提升。
  3总结
  随着互联网技术的发展,电子商务进入了海量数据时代,现有的数据挖掘平台在跨机构、跨平台进行数据挖掘时存在很大困难,本文提出基于PMML的电子商务数据挖掘方法,分析了PMML如何描述数据挖掘流程与其跨平台优点,在研究的基础上利用某电商平台挖掘潜在客户数据设计了实验进行验证,并对结果进行了分析,从而证明了本文提出的基于PMML的电子商务数据挖掘方法具有很好的跨平台交换模型的功能,结合可视化技术可以把挖掘结果以更加直观的方式展现给用户。
  参考文献
  陈发鸿.电子商务发展与政府应对策略[J].管理科学研究,2011,12(5):3-4.
  Turban E,King D.Electronic Commerce:A Managerial Perspective[J].Prentice Hall,2006,4(7):11-16.
  [3]李桂华,姚唐.影响企业购买行为因素的概念化模型及其分析[J].现代财经,2007,11(27):110-129.
  [4]赵文,胡文蕙,张世琨,等.工作流元模型的研究与应用[J].软件学报,2003,6(14):53-59.
  [5]方骏,方云,肖杰.数据挖掘的工业标准的现状和展望[J].计算机应用研究,2004,12(6):8-10.
  [6]Raspl S.PMML Version 30 Overview and Status[C].Seattle,WA,2004.
  [7]Haym Hirsh.Data Mining Research:Current Status and Future Opportunities[J].Statistical Analysis and Data Mining,2008,2(1).
  [8]汪加才,朱艺华.基于PMML的自组织神经网络元模型[J].计算机应用与软件,2006,23(11).
  [9]Wang Chao,Zhou Nan,Qiu Li-juan.Based on the java support PMML code three layer data mining systems[J].Agriculture Information Network,2004,15(8).
  [10]Donald Heam,等.计算机图形学[M].蔡士杰,等译.北京:电子工业出版社,2007.
  [11]Lee Y C.Application of Support Vector Machines to Corporate Credit Rating Prediction[J].Expert Systems with Applications,2007,33(1):67-74.
  (本文责任编辑:孙国雷)
转载注明来源:https://www.xzbu.com/4/view-12710131.htm