您好, 访客   登录/注册

基于决策树模型的商业银行基金客户分类研究

来源:用户上传      作者: 董纪昌 赵铭 纪鹏飞 吴迪

   摘要:文章论述了基金客户分类对商业银行基金营销的重要性。通过对商业银行已有的基金客户数据进行预处理和分析,运用决策树技术对商业银行基金客户构建起分类模型,找出高端(低端)客户特征进而在银行的储蓄客户中挖掘出潜在的基金交易客户,提高商业银行业绩。
   关键词:决策树;客户细分;基金理财客户
  
  一、 引言
   我国的证券基金业经过20世纪90年代的高速发展,现在正处于缓慢增长期,客户数量动态增长,然而在银行基金客户业务中尚缺乏准确有效的客户分类模型,这成为银行代销基金业务发展的一个瓶颈。因此准确的对银行基金客户进行分类对银行吸引潜在客户交易、增加现有客户满意度、减少客户流失几率、提高客户交易水平、提高基金交易业绩具有非常重要的现实意义。
   二、 相关文献和方法回顾
   1. 文献回顾。数据挖掘是从大量原始数据中挖掘出有用的、隐含的、尚未发现的知识和信息,国外的许多学者认识到数据挖掘应用于银行客户关系管理中的重要意义,并对应用数据挖掘进行客户分类进行了大量的研究和应用。Tillett L Scott(2000)认为数据挖掘优化了CRM的服务功能,可以为客户服务提供准确的参考信息,提高对客户事务处理的能力。AdamRombel(2001)认为客户关系管理为客户与银行之间创建了一个沟通渠道,而数据挖掘技术则进一步优化了银行内部的业务流程,使这一渠道变得更加高效与快捷,并且银行能够通过分析客户的交易行为,更好的了解客户和保留客户,挖掘客户的爱好和兴趣,从而以最快的速度响应客户的需求,为客户提供最优质的服务,极大地提高客户的忠诚度。Groth R(1999)认为集成有数据挖掘技术的营销辅助工具可以提供高精确度的模式识别和预测功能,使商业人员有效地策划和开展营销活动。Koh Hian Chye、Chan Kin Leong Gerry(2002)阐述了数据挖掘技术在银行CRM中的重要应用,数据挖掘可以应用于客户关系管理中的多个方面,比如客户价值分析和客户贷款预测、洗黑钱以及其他金融犯罪的侦破。另外,国外许多银行和研究机构也对数据挖掘技术进行了理论研究和产品开发,并且广泛应用于银行业的客户关系管理:Mellon银行通过应用IBM公司开发的Intelligent Miner软件,大大提高了定价和销售金融产品的精确度;美国HNC公司开发了功能强大的数据挖掘产品Marksman,美国Firstart银行能够根据该软件产品对客户的信息数据和消费偏好的研究从而对客户的行为进行预测,以确定何时对客户采取何种市场活动。
   综述所述,国外有关数据挖掘和客户关系管理的研究为下面进行实证研究奠定了坚实的理论基础,也提供了颇具价值的研究经验和理论基础。但由于银行体制结构的差异,国外的研究方法尚无法直接套用在国内的研究上。
   我国银行业对于数据挖掘在银行客户关系管理方面的研究和应用还处于起步阶段;聂晶、孙捷(2005)进行了基于数据挖掘的商业银行客户关系管理系统的体系的架构。张颖、杜斌、钟永红(2005)提出了一种基于数据挖掘技术的银行客户关系管理系统的设计方案,希望能够用来解决我国现行银行信息系统中在银行客户关系管理中所存在的问题。他们在分析了现有银行客户信息系统的现状后,讨论了数据仓库、OLAP和数据挖掘在银行CRM中的应用,并将XML以及多维数据模式设计的思想结合在一起,并在此基础上构造了一个新的银行客户关系管理系统。张忠磊、孙玉娟(2006)介绍了一种基于数据挖掘技术的银行客户关系管理系统的设计方案。在分析了现有银行客户信息系统的现状后,讨论了数据仓库、OLAP和数据挖掘在银行CRM中的应用,并结合XML和多维数据模式设计的思想,构造了一个银行客户关系管理系统的架构。赵宝华(2009)阐述了基于银行细分的数据仓库设计,并将数据挖掘技术中的聚类算法应用于用户市场的细分,从而有助于银行的业务发展和市场定位。常雪琦、刘伟(2009)研究了在银行客户关系管理中如何应用数据挖掘技术,并在此基础上构建了以数据挖掘为核心的银行客户关系的管理系统;鲁江、何晓玲(2009)将数据挖掘技术与银行信用风险度量系统结合在一起,此技术能够辅助银行的决策者进行信用方面的风险管理;邹少军(2009)利用决策树分析了在银行的客户关系管理的应用模式,并阐述了它的实现过程以及决策树构造算法。
   由以上相关文献检索可知,我国银行业对数据挖掘方面的应用较少,且国内的相关研究的成果主要集中在客户关系管理,证券客户分类等方面,缺乏对银行基金客户分类的研究。对数据挖掘技术在客户关系管理中的应用多是采用因子分析和回归分析,还较少有人对数据挖掘技术在商业银行客户关系管理中进行定量、系统地进行过研究。因此本文在继承以往学者研究的基础上,运用决策树方法对某商业银行2009.01.01到2010.03.31期间的数据建模,构建银行基金客户的决策树模型,并且将其与常用的分类模型逻辑回归模型和神经网络模型进行对比以此说明决策树方法的可行性。
   2. 决策树分类算法。决策树算法起源于概念学习系统CLS(Concept Iearning System),决策树分类算法主要是利用信息论原理对大量样本的属性进行分析和归纳而产生的,发展到ID3方法而为高潮,最后又演化为能处理连续属性的C5.0。基于决策树的分类技术以其特有的优点广为人们采用。首先,决策树以树形结构表示,且树的节点处是对预测结果影响显著的属性,方法结构简单,便于理解;其次,决策树模型效率高,适合训练数据集较大的情况;再次,决策树方法通常不需要受训数据外的知识;最后,决策树方法具有较高的分类准确度。
   决策树技术主要是利用信息论中的信息增益来寻找训练数据集中具有最大信息量的属性字段,并将该属性字段作为决策树的一个节点,然后根据该属性字段的不同取值来建立树的分支,在每个分支集中重复建立树的下一个节点和分支的过程。树的质量取决于分类准确度和决策树的规模。一般来说,决策树的构造主要由两个阶段组成:第一阶段,建树阶段。选取部分受训数据建立决策树,决策树是按广度优先建立直到每个叶节点包括相同的类标记为止。第二阶段,调整阶段。用剩余数据检验决策树,如果所建立的决策树不能正确回答所研究的问题,就要对决策树进行调整,直到建立一棵正确的决策树。
   在决策树构造完成之后,便可以对未知的样本数据进行分类预测。通过对样本数据的各个属性值在决策树上进行测试,便形成了一条由根节点到叶子节点的路径。决策树可以很容易地转化成分类规则。
   三、 基于决策树的商业银行客户分类
   1. 研究思路。本文的研究思路是首先将某商业银行的样本分为两部分:随机抽取60%的样本作为训练集;其余40%的样本作为测试集,然后,通过计算训练集样本的各特征因素(如:客户年龄、交易金额、交易手续费、最后一次交易时间等)与贡献度标签的关系,建立决策树分类器,最后再检验该分类器在测试集中的准确性,换而言之是否具有外推性。
   2. 数据来源及说明。国内某商业银行的数据为客户在2009年01月01日到2010年03月31日共一年零三个月的交易数据以及客户的银行存款数据,共计6 394条数据。其中剔除2009年没有交易数据的无效数据1 084条数据,剩余5 310条有效数据,这部分数据具有以下特点:

   (1)交易数据全面:有详细的交易金额,时间,次数。
   (2)信息充足:不仅拥有交易数据,还拥有客户的存贷款数据,其他业务数据,以及个人信息数据。
   (3)真实度较高:数据真实可靠,数据缺失较少。
   本文将2009年1月1日至2009年12月31日共计一年的时间确定为观察期,将2010年1月1日至2010年3月31日为表现期,将在表现期中有交易的客户即认定为优质客户,打标为1。这样认定的原因是只有客户存在交易就会给银行带来收入,即带来正的现金流;而银行成本分摊至每个客户可以忽略;即短期(3个月)有现金流入即认定为优质客户。按照上述原则,对5 310名有效客户进行了分类打标,得到标签为0的客户即低端客户数量为2 854名,占样本总数的53.75%,标签为1的客户数量为2 456名,占样本总数的46.25%。如表1所示。
   3. 模型构建。本文用WEKA软件进行运算处理,分类模型过程如下所示:
   (1)对训练集进行训练,计算每个属性的信息增益和获取率,选择获取率最大的但同时获取的信息增益又不低于所有属性平均值的属性,作为当前的主属性节点,为该属性的每一个可能的取值构建一个分支。对该子结点所包含的样本子集递归地执行上述过程,直到子集中的数据记录在主属性上取值都相同,或没有属性可再供划分使用,生成初始的决策树。
   (2)对初始决策树进行树剪枝;主要采用后剪枝算法对生成的初始决策树进行剪枝,并在剪枝过程中使用一种悲观估计来补偿树生成时的乐观偏差。
   (3)由所得到的决策树提取分类规则;对从根到树叶的每一条路径创建一个规则,形成规则集。将规则集显示给用户,把用户筛选过认为可行的规则存入规则数据库。
   (4)当新客户发生市场交易行为时,系统运用决策树所得规则对新客户的数据信息进行分析,预测该客户的行为属于哪一类,从而为客户营销策略提供辅助决策。
   根据以上的决策树分类模型过程构造决策树并根据决策树模型进行分析,当客户最后一次交易距2009年末时间长度超过52天时客户识别为高端客户的比例为11.9%,低端客户的比例为88.1%。在最后一次交易小于52天时且定投次数大于0时高端客户占到90.4%,当定投次数小于0时,客户的类别又与净值偏好和股票型支数有关,净值偏好大于0且股票型支数大于2支时,高端客户所占样本比例很高。从总体而言,从决策树模型看出的客户分类直观明确,且符合逻辑。经测试集对模型分类测试后,准确率达到87.85%
   4. 模型效果及对比。由于随机样本分成60%的训练集和40%的测试集可能具有一定的偶然性,因此本文采用使用weka软件的决策树工具包进行十折交叉运算进行验证效果,同时也用逻辑回归和模糊神经网络方法进行十折交叉运算,对模型的效果加以对比,得出的结果如表所示。
   从表2可以看出,进过十折交叉运算后决策树方法准确率为86.478 3%高于逻辑回归和神经网路的85.762 7%,84.463 3%,从Mean absolute error指标看出决策树方法的误差低于逻辑回归和神经网络,说明决策树方法在商业银行基金客户分类中的准确率高于其他方法。从Kappa statistic参数来看决策树方法为0.722 2,同样也高于逻辑回归和神经网络的0.707 8,0.683 9,说明决策树在银行基金客户分类中的一致性相对另外两种常用的方法较好。
   表格中第一行TP Rate是判断分类是0,结果也是0的概率。第二行TP RATE是判断分类是1结果也是1的概率。这个值越高越好,从表中可以看出决策树方法在基金客户分类中预测效果高于其他两种方法。
   四、 结论
   客户关系管理的基本原则之一就是客户分类,合理准确的客户分类也是商业银行维护不同层次客户,提高利润的重要手段和前提。决策树分类方法作为比较常用的分类方法却很少用于商业银行基金客户分类。本文运用决策树分类方法建立了商业银行的客户分类模型,获得了较为准确的分类结果,同其他常用的数据挖掘方法相比较,其解释能力和准确性都有很好的效果。银行可以运用此方法进行客户分类进而针对不同类别采取不同的营销策略,实现收益的最大化。
   参考文献:
   1. Adam Rombel.CRM Shifts to Data Mining to Keep Customers.Global Finance,2001,15(11):97-98.
   2. Groth R.Data Mining,Building Competitive Advantages.Prentice-Hall Ptr,1999.
   3. 洪家荣,丁明峰,李星原,王丽薇.一种新的决策树归纳学习算法.计算机学报,1995,(6).
   4. John Durkin,蔡竞峰,蔡自兴.决策树技术及其当前研究方向.控制工程,2005,(1).
   5. 刘小虎,李生.决策树的优化算法.软件学报, 1998,(10).
   6. 田金兰,赵庆玉.并行决策树算法的研究.计算机工程与应用,2001,(20).
   7. Tillett L Scott.Banks Mine Customer Data.Internet Week,2000,(831):45-46.
   8. 徐爱琴,张德贤.基于神经网络的分类决策树构造.计算机工程与应用,2000,(10).
   9. 聂晶,孙捷.基于数据挖掘的商业银行客户关系管理系统构建研究.科技创业月刊,2005,(10):95-96.
   10. 张忠磊,孙玉娟.数据挖掘技术在银行客户关系管理系统中的应用研究.华南金融电脑,2006,(5):89-91.
   11. 赵宝华.数据挖掘技术在银行客户细分中的应用.微型电脑应用,2009,25(10):40-44.
   12. 常雪琦,刘伟.数据挖掘技术在客户关系管理中的应用分析――以银行业为例.信息技术与信息化,2009, (5):70-78.
   13. 鲁江,何晓玲.数据挖掘在我国商业银行信用风险度量模型中的应用. 中国管理信息化,2009,12(11): 75-78.
   14. 邹少军.数据挖掘与决策树在银行 CRM 中的设计与实现.电脑知识与技术,2009,5(33):9154-9156.
   15. 吴迪.高鹏.董纪昌.基于场景理论的中国城市居住房地产需求研究. 系统科学与数学,2011,31(3):253- 264.
   16. 吴迪,高鹏,董纪昌.保障性住房违规出租问题的博弈分析和治理研究.管理评论,2011,23(2):3-10.
   17. 吴迪,高鹏,董纪昌.公共租赁房租金定价研究.数学的实践与认识,2011,41(5):47-55.
   18. 吴迪,高鹏.“城中村”问题的国内理论研究进展.学术论坛,2009,12(227):114-119.
   19. 吴迪,李秀婷,高鹏,董纪昌.我国房地产市场的短期量价变化研究及预测.改革与战略,2011,27(3):139- 141.
   20. 李朝晖.建立国家级战略性新兴产业创业投资引导基金的对策建议.现代经济探讨,2011,(10).
   基金项目:国家自然基金项目“我国房地产市场区域差别与调控政策差异化研究”(项目号:71173213);中国科学院预测科学研究中心主任基金项目“高阳金信基金理财产品研究”(项目号:Y0410411G2);中国科学院预测科学研究中心主任基金项目“中国宏观经济预测”(项目号:0929018ED2)。
   作者简介:董纪昌,中国科学院管理学博士,中国科学院研究生院管理学院应用经济中心主任、院长助理;赵铭,中国科学院研究生院管理学院硕士生;纪鹏飞,中国科学院研究生院管理学院硕士生;吴迪,中国科学院研究生院管理学院博士后。
   收稿日期:2012-01-28。


转载注明来源:https://www.xzbu.com/3/view-1551006.htm