基于关联规则挖掘的信用卡欺诈研究
来源:用户上传
作者: 李 颖
摘要:关联规则分析作为数据挖掘中一个重要的组成部分,能够有效发现大量数据中相关属性集之间有意义的关联关系,从而为政策或规则的制定提供参考依据。近年来,关联规则分析已被广泛应用到零售、物流、信用卡营销及风险管理等众多领域。基于此,从介绍关联规则分析的基本概念出发,以德国信用卡为例,使用Intelligent Miner软件,探讨信用卡持卡人信用卡欺诈所具有的一般特性,对提升业务风险管理技术有所裨益。
关键词:关联规则挖掘;信用卡欺诈;风险管理
中图分类号:F830 文献标志码:A 文章编号:1673-291X(2010)26-0112-03
引言
从世界第一家信用卡公司产生至今,银行卡产业已有五十年的历史。经过五十多年的发展,围绕信用卡业务已经催生出一个规模庞大的产业,银行卡已经深深植根于当代经济和社会生活之中,成为现代金融业发展不可缺少的内涵。大力推进银行卡产业化发展,可以有效地挖掘产业内部蕴藏着的巨大商机,刺激消费需求,拉动经济增长,带动相关产业的发展。
而信用卡作为一种全新的支付手段和信用工具,已成为众多商业银行竞相推出的产品,信用卡的发卡数量急剧扩张。随之而来的问题是信用卡风险愈来愈高,因此,防范信用卡风险迫在眉睫。经营信用卡业务有高收益,同时伴随着高风险。如何有效防范和化解银行卡业务风险已成为各发卡机构共同探讨的问题。
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,无数个数据库被用于商业管理、政府办公、科学研究和工程开发等,这一势头仍将持续发展下去。随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为管理部门创造很多潜在的利润,而这种从海量数据库中挖掘信息的技术,就是数据挖掘。一个数据挖掘系统可以完成关联、分类、预测、聚类等数据挖掘任务。
本文以德国信用卡数据为例,使用关联规则挖掘的方法,试图探索消费者信用卡数据中的一些隐含的信息,寻找影响消费者信用卡违约的一些重要因素,总结出持卡人违约的一般性特征,从而可以为发卡行在甄别申请人的信息时提供一些建议和参考。
一、国内外研究现状及相关文献回顾
(一)信用卡欺诈
不良事件(adverse event)诸如失业、健康问题、医疗成本、离婚这些会减少债务人的收入以及增加他们的生活成本,是他们违约的一个较大的因素。Sullivan(2000)研究发现,失业导致的信用卡违约占67%;Himmelstein(2005)研究则发现,疾病、意外伤害以及医疗负担造成的信用卡违约占55%。与此相反,其他一些研究以面板数据来研究不良事件的影响得出了相反的结论。这些研究还认为不良事件的发生不是频繁的,因此不能作为信用卡违约的主要因素。在动态收入调查研究中发现,在信用卡滥用中,高负债所占的比例约为43%,而高负债则进一步导致了信用卡欺诈的发生。
(二)关联规则
关联规则挖掘可以发现传统的人工智能和统计方法所无法发现的规则或规律,因此其具有重要的研究价值。目前,世界上知名大学的研究机构和各大IT公司的研究部门都投入了大量精力对其进行研究,并取得了诸多的研究成果。美国斯坦福大学智能数据库系统实验室开发出了大量的商用化数据挖掘系统,如DBMiner挖掘系统。该系统包含了许多先进的挖掘算法,并有很多优秀的特点:用户无须具有高级的统计知识和培训即可使用该软件,因为底层的挖掘细节对于用户是不透明的;挖掘的知识类型多种多样,从关联规则、序列模式(Sequence Pattern)到发现驱动(Discovery-Driven)的分类等;并且,由于采用了许多先进的研究成果,因此该产品的速度声称是其同类竞争者的20倍;此外,该系统可以在多种平台上运行,并与许多主流的数据库系统(如SQL-Sever. Oracle等)结合紧密;同时,还引入了在线分析挖掘技术,使得系统更能充分发挥数据仓库的分析优势。IBM的Almaden实验室所进行的Quest项目同样也是数据挖掘研究领域中的佼佼者。该项研究包含了对关联规则、序列模式、分类及时间序列聚类(TimeSeries Clustering)的研究,其代表性的产品有:DB2 Intelligent Miner for Data。此外,美国的宾西法尼亚大学的数据挖掘研究小组也在这些方面取得了显著成果。其主要研究包括:利用注释和文本对数以百万计的文章进行聚类和分析;从多家医院的病人数据库中发现可以提高医疗质量和降低医疗费用的模式;在构建一个模型中选择合适的变量:基于DNA序列预测基因模式等。目前,世界上比较知名的数据库公司,如Oracle. Sybase等都已经在不同程度上将数据挖掘的有关技术结合到其对应的数据库产品中来,使得大型数据库的功能向智能化的方向迈进了重要的一步。
在国内,数据挖掘研究的起步只是最近几年的事,主要的研究机构有:中科院、清华大学、西安交大、上海交大及国防科大等少数几所院校和研究机构,在国内外权威刊物上发表的有关文章也寥寥无几。尽管如此,由于数据挖掘技术的广泛应用前景和其具有的强大功能,促使我们必须迅速展开对其深入的研究。
二、数据及模型说明
(一)指标说明
设I={i1,i2,….im}是项组合的记录,D为项组合的一个集合。在规则挖掘中涉及到两个重要的指标。(1)支持度(A?圯B)=n(A?圯B)/N,显然,只有支持度较大的规则才是较有价值的规则。(2)置信度(A?圯B)=n(A?圯B)/N(A),显然只有置信度比较高的规则才是比较可靠的规则。(3)一般地,关联规则可以提供给我们许多有价值的信息,在关联规则挖掘时,往往需要事先指定最小支持度与最小置信度。关联规则挖掘实际上真正体现了数据中的知识发现。因此,只有支持度与置信度均较大的规则才是比较有价值的规则。
(二)数据说明
研究所使用的是德国的信用卡数据,由于关联规则挖掘通常比较适用与记录中的指标取离散值的情况,如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。基于原始数据涉及的隐私问题,本文在此仅对数据进行离散化后的说明。数据处理软件为SAS以及DBMiner。样本总量为1 000,每一个观测样本有20个记录,分别表示20个不同的性质,经过处理删除无关紧要或者无法处理的连续变量(变量四、变量八、变量十四、变量十五、变量十七)后离散化过程及离散化后的结果如下显示:
变量一:既有的支票账户。
A11:既有支票账户余额<零,A12:0<既有支票账户余额<200DM,A13:既有支票账户余额<200DM,A14:没有支票账户
变量二:久期(以月为单位)。
变量三:信用历史。
A30:无信用历史/及时偿还所有的贷款,A31:及时偿还在一家银行的贷款,A32:直到现在及时偿还现在既有的贷款,A33:过去都推迟还款,A34:有其他的信用账户,但不在本家银行。
变量五:信用账户。
变量六:储蓄账户。
A61:储蓄账户<100DM,A62:100DM≤储蓄账户<500DM, A63:500DM≤储蓄账户<1000DM,A64:储蓄账户≥1000DM,A65:未知或者没有储蓄账户。
变量七:已工作时间。
A71 :失业,A72 :工作时间<1年,A73 :1年≤工作时间<4年,A74 :4年≤工作时间<7年,A75:工作时间≥7年。
变量九:个人信息(性别及婚姻状况)。
变量十:其他债务人/担保人。
A101:无 ,A102 :共同申请人, A103 :担保人。
变量十一:目前居住地居住时间。
变量十二:财产。
A121:房产,A122:建设社会储蓄协议/人寿保险,A123:车或其他,A124:未知或其他。
变量十三:年龄。
变量十六:在银行的既有贷款量。
变量十八:是否有人对维持信贷负责。
A181:有,A182:没有。
变量十九:电话。
A191:无,A192:有,并记录电话号码。
变量二十:是否为国外工作者。
A201:是 ,A202:否。
使用SAS6.12处理,首先生成挖掘数据库,进而由Intelligent Miner进行关联规则挖掘。经SAS6.12处理的数据含义如1001:表示第十个变量的第一个特性。
三、关联挖掘结果分析
由Intelligent Miner软件经过处理,可以得到以下关联规律。
(1)1801+1001+1601+104→1,支持度16.3,置信度90.56。
(2)1001+2001+1601+104→1,支持度17.9,置信度89.95。
(3)1801+1001+2001+1901+104→1,支持度15.2,置信度89.94。
(4)1001+2001+1901+104→1,支持度17.5,置信度88.38。
(5)903+1801+1001+1601+2001→1,支持度16.2,置信度73.97。
(6)1801+1001+2001→1,支持度52.4,置信度69.96。
(7)1801+2001+1001+104→1,支持度27.2,置信度88.6。
(8)903+1801+1001+2001→1,支持度27.3,置信度74.97。
(9)1801+1001+2001+1901→1,支持度30.2,置信度69.43。
(10)1801+1001+2001+302+1601→1,支持度25.1,置信度68.58。
在入选的18个变量中,引致信用卡欺诈的原因主要有既有的支票账户、信用历史、个人信息、其他的担保人、在银行的既有贷款、是否有人对信贷负责、是否为国外工作者。进一步将这些数字信息的进一步分析显示了,当信用卡持卡人含有在没有既有的支票账户、信用历史差(直到现在及时偿还现在既有的贷款)、没有其他的担保人、没有人为信贷负责这些特征中的几个特性时,在很大置信度上,该持卡人会没有办法偿还信用卡的贷款,因此会拖欠贷款,使该卡的贷款成为不良贷款。
具体的来看,在关联规则(1)中,当持卡人没有既有的支票账户,没有其他担保人,在银行的贷款较多,并且没有其他人对信贷负责的情况下,在90.56%的置信度上,他是会违约的。在这里支持度比较低,但是联系实际意义上来看,含有这些特征的人,并且能够成功申请到信用卡的概率是比较小的。一旦这样的人申请到了信用卡,90%的人都是会造成发卡行的损失的。在关联规则(6)中,在没有其他担保人,没人对信贷负责,并且是国外工作者的情况下,以52.4%的支持度和69.96%的置信度上可以判断持卡人是否会违约。其他的关联规则关系可以以同样的方式进行分析,在此不对每一条进行赘述。
可以得出的一般化结论是,其他担保人,是否有人对信贷负责,是信用卡持卡人会违约所具备的一般特性(对德国人来说)。在本文的样本数据中显示了,国外工作者也是一个比较重要的变量,本文认为这可能是由于非德国人在德国的经济地位不如德国人造成的。
四、结论
研究以德国的信用卡数据为例,采用关联规则挖掘的方法,采用Intelligent Miner对1 000个样本数据进行了发掘和分析。分析发现,在18个变量中,引致信用卡欺诈的原因主要有既有的支票账户、历史信用记录、个人信息、其他的担保人、在银行的既有贷款、是否有人对信贷负责、是否为国外工作者,最后保留的变量在一定意义上解释了信用卡持卡人欺诈的特性,其他担保人、是否有人对信贷负责,是信用卡持卡人会违约所具备的一般特性(对德国人来说)。
为了防范信用卡欺诈犯罪,保障持卡人的用卡安全, 各监管部门、金融机构、信用卡国际组织一直以来都在致力于防范和打击信用卡欺诈犯罪。
1.完善法律法规,加强政策支持
为有效遏制和打击信用卡欺诈犯罪活动,立法机关、监管机构出台了相应的法律、法规,切实维护银行、商户和持卡人的利益。
2.加快个人信用体系建设
要建立个人信用档案,形成信用长效机制。应建立个人信用收集、评估和供给的中介机构。建立个人信用档案,可以记录个人的信用表现,督促个人的信用实践,增强个人的信用意识,评价个人的信用状况,具有操作性、针对性。将有关个人的日常行为和个人品德、金融信誉、守约情况等,凡是与信用有关的真实信息都纳人信用资料库中。要建立严格的信用监督机制,制定鼓励诚信、制约无信的政策措施。
3.加强全社会风险防范意识
发卡银行要严格信用卡管理。要认真审核客户资料,谨慎发卡。发卡银行在受理客户信用卡申请业务时,须严格审核客户所提供的信息材料,确定其真实性后进行相关资信评估,区别授信。要完善内控制度。一些发卡行疏于内控制度建设,片面追求发卡量和市场占有率,为不法人员提供了可乘之机。
参考文献:
[1] 杨毅,王静.商业银行信用卡业务风险的成因与控制[J].西北农林科技大学学报,2009,(1).
[2] 苗绘.信用卡欺诈及防范[J].金融教学与研究,2005,(4).
[3] 孙大利.关联规则分析及其在信用卡反欺诈中的应用[J].中国信用卡,2007,(11).
[4] Michelle J. White, Bankruptcy Reform and Credit Cards, July 2007.
转载注明来源:https://www.xzbu.com/2/view-396821.htm