您好, 访客   登录/注册

基于数据挖掘技术的商品陈列研究

来源:用户上传      作者: 朱海红 江庭友 司丹丹

  [摘要]商品陈列的科学性的研究,借助于数据挖掘的技术从海量的销售数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息。本文综述了各种常用的数据挖掘算法和评价标准。
  [关键词] 数据挖掘决策树神经网络
  
  数据挖掘是从海量数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息和知识的非平凡过程,汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等多学科的成果。其中在商业数据挖掘技术超市陈列研究不可能另起炉灶,新建一套数据库。因此需要借助原有的超市销售管理系统中积累了海量的销售与经营数据,并建立在数据仓库技术(Data Warehouse,DW)和联机分析处理(On-Line Analysis Processing, OLAP)技术的基础上,运用关联分析、分类、聚类分析和预测分析等数据挖掘方法,从海量的交易数据中发掘有价值的知识,为超市的决策者提供科学的决策信息和依据。
  一、数据仓库技术与联机分析处理
  所谓数据仓库就是一个专门的用来保存从多个数据库或其它信息源选取的已有数据,并为上层应用提供一个统一的用户接口,用以完成数据的查询和分析。数据仓库概念创始人英蒙(William H. Inmon)在《Building the Data Warehouse(建立数据仓库)》一书中对数据仓库的定义是:“数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。”
  数据仓库的基本结构可分为4个部分:数据源、数据仓库、应用工具和可视化用户应用界面。
  1.数据仓库是整个系统的核心,设在大型超市的总部。系统将各个零售数据经抽取、变换、净化、加载和汇总后进人数据仓库。
  2.数据源所提供的历史数据是创建数据仓库的基础,分为内部数据源和外部数据源。内部数据源主要来自于超市日常运营系统所提供的数据,它包括每天的POS销售数据、库存数据、采购数据、财会数据、供应商数据及客户数据等,可以是异种或异构数据库,也可以是非传统的数据,例如Word文档、HTML,Excel电子表格等。外部数据源是指来自商家的专门调查或相关部门统计的数据,如竞争对手信息、行业统计信息、市场占有率等。
  3.应用工具主要指OLAP工具和数据挖掘工具。OLAP可以按照分析人员的要求,快速灵活地进行大量数据的复杂查询处理,并可以通过可视化前端服务以一种直观易懂的方式将分析的结果呈现给分析人员。数据挖掘工具是从大量数据中寻找尚未发现的重要信息。
  4.可视化前端服务是面向用户的需求将分析结果以方便用户理解的方式呈现给用户,以支持用户进行决策。
  联机分析处理是一个与数据仓库高度相关的概念,1993年由关系数据库之父爱德华•库德(E•F•Codd)博士于提出的,是一种用于组织大型商务数据库和支持商务智能的技术。OLAP数据库分为一个或多个多维数据集,每个多维数据集都由多维数据集管理员组织和设计以适应用户检索和分析数据的方式,从而更易于创建和使用所需的数据透视表和数据透视图。数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容。概括来说,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。它本身包括三部分内容:
  (1)数据层:实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中心信息数据库中。
  (2)应用层:通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据的分析。
  (3)表现层:通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。
  从应用角度来说,数据仓库系统除了联机分析处理外,还可以采用传统的报表,或者采用数理统计和人工智能等数据挖掘手段,涵盖的范围更广;就应用范围而言,联机分析处理往往根据用户分析的主题进行应用分割,例如:销售分析、市场推广分析、客户利润率分析等等,每一个分析的主题形成一个OLAP应用,而所有的OLAP应用实际上只是数据仓库系统的一部分。
  二、数据预处理与算法综述
  因为数据预处理没有统一的标准,只能说是根据不同类型项目的分析数据和业务需求,在对数据特性做了充分的理解之后,再选择相关的数据预处理技术,一般会用到多种预处理技术,而且对每种处理之后的效果做些分析对比,再重新调整下一步的挖掘思路,这里面经验的成分比较大。基于数据仓库的数据挖掘一般包括数据抽取、清洗转换和加载(ETL,Extract、Transform & Cleansing、Load)三个步骤,而先导型数据挖掘项目主要是前两个步骤。主要涉及到数据清理、数据集成与变换和数据规约等技术。
  数据的抽取(这个过程也可以做一些数据的清洗和转换)是从各个不同的数据源抽取到数据集中区(ODS,Operational Data Store)中,在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。就个人经验来看,数据抽取、清洗转换和加载三个部分中,花费时间最长的是清洗、转换(T&C)的部分,一般情况下这部分工作量是整个过程的2/3。对于先导型数据挖掘而且这个部分需要不断的反复做。
  因为数据预处理没有统一的标准,只能说是根据不同类型项目的分析数据和业务需求,在对数据特性做了充分的理解之后,再选择相关的数据预处理技术,一般会用到多种预处理技术,而且对每种处理之后的效果做些分析对比,再重新调整下一步的挖掘思路,这里面经验的成分比较大。基于数据仓库的数据挖掘一般包括数据抽取、清洗转换和加载(ETL,Extract、Transform & Cleansing、Load)三个步骤,而先导型数据挖掘项目主要是前两个步骤。主要涉及到数据清理、数据集成与变换和数据规约等技术。
  数据的抽取(这个过程也可以做一些数据的清洗和转换)是从各个不同的数据源抽取到数据集中区(ODS,Operational Data Store)中,在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。就个人经验来看,数据抽取、清洗转换和加载三个部分中,花费时间最长的是清洗、转换(T&C)的部分,一般情况下这部分工作量是整个过程的2/3。对于先导型数据挖掘而且这个部分需要不断的反复做。
  1.数据清理:通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致数据,主要是达到格式标准化、异常数据清除、错误纠正和清除重复数据的效果。
  2.数据集成与变换:将多个数据源中的数据结合起来并统一存储过程实际上就是数据集成,即数据集成合并多个数据源中的数据,存放在一个一致的数据存储(如数据集中区或数据集市)中。这些数据源可能包括多个数据库、数据立方体或一般文件。主要涉及实体识别、冗余和数据值冲突的检测与处理三方面问题。
  3.数据归约:数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性。这样,对归约后的数据集挖掘将更有效,并产生相同(或几乎相同)的分析结果。
  因为不同超市采用不同销售管理系统,而且格式差异很大,采集的数据质量太差并且格式不一致,本文将数据仓库数据导入一个Excel 表格,进行手工处理。

  由于挖掘数据量一般比较大,因此,算法的时空复杂性成为许多挖掘工具实际应用中的重要限制因素。如果算法的复杂性随着数据量的增大、模式精细度的提高、准确度要求的增加而呈现指数增长,就将严重限制数据挖掘工具的应用。
  为了了解数据挖掘工具解决复杂问题的能力大小.可从挖掘工具的模式应用、数据选择和转换能力、可视化程度、扩展性等方面考察。
  多种类别模式的结合使用往往有助于发现有用的商业模式,降低问题的复杂性。特别是与分类有关的模式,可用不同的算法来实现,以适应不同的需求环境。数据挖掘工具如果能够提供多种途径产生同种模式,可以提高其解决复杂问题的能力。
  数据选择和转换能力对挖掘工具解决复杂问题能力的影响也是相当大的。因为知识模式通常被大量的数据项所隐藏,这些数据有的是冗余的,有的是完全无关的。这些数据项的存在会影响有价值模式发现的能力。数据挖掘工具的一个很重要功能,就是能够减低数据的复杂性,提供选择正确数据项和转化数据值的能力,这些能力都将增加数据挖掘工具解决复杂问题的能力。
  可视化工具不仅为用户提供了直观、简洁的数据挖掘方法,方便了用户使用数据挖掘工具;更重要的是可视化工具有助于用户对重要数据的定位,对模式质量的评价,从而降低解决复杂问题时建模的难度。
  三、影响购买的因素
  为方便处理,将品牌根据销量归一化(即根据销量加权平均),同时将所有饮料同质化处理,即不考虑其口味和品种,仅考虑其由于其摆放位置高度、深度和摆放幅度(宽度),以及视角和色彩种类。
  表描述统计表
   N Minimum Maximum Mean Std. Deviation
  超市面积(m^2) 45 20 3200 219.76 469.703
  超市经营货品种类 45 300 29800 3153.56 4512.070
  月销售额(万元) 45 2 2500 73.44 370.152
  POS机数量(台) 45 1 20 2.89 3.151
  营业时间(hr) 45 12.0 24.0 15.056 3.0080
  周边小区 45 0 7 2.87 1.700
  客户行走动线长度 45 5 200 18.01 28.707
  最大客户线密度(个/m) 45 .1 1.9 .956 .5692
  货架高度(m) 45 1.59 4.00 3.0174 .76483
  货架格数 45 4 6 4.98 .783
  货架深度 44 1 6 4.20 .878
  货架宽度 45 1 5 2.76 1.368
  视角(度) 45 0 42 20.37 12.344
  色彩种类 45 1 5 3.00 1.446
  
  四、主成分分析原理
  目前超市,其选择的样本数量都在几十个到一百多个,所使用的指标大多是根据主观判断选择能影响产品销售的指标作为模型的输入变量,所选的指标数量在几个到几十个之间。由于样本量多数偏小,不足以体现数据挖掘技术的优势,而且尽管在样本选择上都采取随机抽样,但是由于数据的可获得性或其他原因,都或多或少对研究结论有一定影响。所以首先要对这些指标进行降维处理,找出最重要的几个影响指标。
  一般来说,指标降维有小波变换和主成分分析(PCA,principal components analysis)两类方法,与小波变换相比,PCA(又称Karhunen-Loeve或K-L方法)能够更好地处理稀疏数据,而小波变换似乎更适合复杂高维结构数据。
  假定待归约的数据由n个属性或维描述的元组或数据向量组成。PCA搜索k个最能代表数据的n维正交向量,其中k≤n。这样,原来的数据投影到一个小得多的空间,导致维度归约。不像属性子集选择通过保留原属性集的一个子集来减少属性集的大小,PCA通过创建一个替换的、更小的变量集“组合”属性的基本要素。原数据可以投影到该较小的集合中。PCA常常揭示先前未曾察觉的联系,并因此允许解释不寻常的结果。基本过程如下:
  1.对输入数据规范化,使得每个属性都落入相同的区间。此步有助于确保具有较大定义域的属性不会支配具有较小定义域的属性。
  2.PCA计算k个标准正交向量,作为规范化输入数据的基。这些是单位向量,每一个方向都垂直于另一个。这些向量称为主成分。输入数据是主成分的线性组合。
  3.对主成分按“重要性”或强度降序排列。主成分基本上充当数据的新坐标轴,提供关于方差的重要信息。也就是说,对坐标轴进行排序,使得第一个坐标轴显示数据的最大方差,第二个显示次大方差,如此下去。这一信息帮助识别数据中的分组或模式。
  4.既然主成分根据“重要性”降序排列,就可以通过去掉较弱的成分(即方差较小)来归约数据的规模。使用最强的主成分,应当能够重构原数据的很好的近似。
  PCA计算开销低,可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据。多于2维的多维数据可以通过将问题归约为2维问题来处理。主成分可以用作多元回归和聚类分析的输入。
  五、结论
  通过主成分分析,安徽某市超市饮料销售与面积和客户行走动线长度高度相关,与其他因素相关性没有通过统计学检验,由于数据采集和相关变量设置缺乏足够的经验,现在只能怀疑数据采集的时点的不相关性导致规律的不明显。
  因为超市的最主要的数据是销售数据,其他数据,如库存数据、采购数据都是围绕着该数据,或说与该数据高度相关。显然,销售数据蕴含的反映顾客购买行为的商品相关性信息,这个是我们最为关心的。此类数据的最大的特点是,基于半文本的,非结构化的,短时段内是随机的(客户间相关性很弱),但是长时段与时间相关(季节趋势),因此对此类数据应该以关联性挖掘算法为主,当然多种类别模式的结合使用往往有助于发现更有用的商业模式,同时有时会降低问题的复杂性。特别是,在销售中分析与归类有关的模式,可用不同的算法来实现,以适应不同的需求环境。数据挖掘工具如果能够提供多种途径产生同种模式,可以提高其解决复杂问题的能力。
  
  参考文献:
  [1] (美)Jiawei Han(韩家炜)and M. Kamber 著,范明等 译,数据挖掘概念与技术 [M].北京:机械工业出版社,2001:1-97
  [2](英)David Hand 等著,张银奎等译,数据挖掘原理 [M].北京:机械工业出版社,2003:64-122
  [3] (意)Paolo Giudici著, 袁方等 译 ,实用数据挖掘 [M].北京:电子工业出版社,2004:1-91
  [4] (美)Pang-Ning Tan(陈封能), Michael Steinbach and Vipin Kumar著, 范明、范宏建 译,数据挖掘导论[M].北京:人民邮电出版社,2006:1-140
  [5]安淑芝 等,数据仓库与数据挖掘 [M].北京:清华大学出版社,2005:53-70
  [6] (美)George M.Marakas 著,敖富江译.数据仓库、挖掘和可视化核心概念.北京:清华大学出版社,2004:79-124
  [7](美)Trevor Hastie,Robert Tibshirani and Jerome Friedman, 范明等 译,统计学习基础:数据挖掘、推理与预测[M].北京:电子工业出版社,2004:135-155,243-258
  


转载注明来源:https://www.xzbu.com/3/view-1476006.htm