您好, 访客   登录/注册

“人工智能+金融大数据”客户信用评估

来源:用户上传      作者:刘芳 齐菲菲 李祥霞

  [摘    要] 随着大数据时代的到来,金融大数据应用已成为行业热点趋势,使得面向金融的大数据技术吸引了越来越多的关注。从大量的金融数据中挖掘有价值的数据是非常重要的,与人工智能结合,由机器代替人去挖掘信息,可实现数据增值。客户信用评估是金融的一个重要应用,可根据训练样本建立模型分析新用户是否会违约,将客户分成“信用客户”和“违约客户”。本文引入迁移学习和深度学习,描绘了基本的流程,强调了机器学习用于客户信用评估的优势。
  [关键词] 人工智能;金融大数据;客户信用评估;迁移学习;深度学习
  1      引    言
  近年来,中国经济走向新常态,预计2017-2022年,中国金融行业大数据应用市场规模年均复合增长率为55.21%,到2022年,达到497亿元。随着大数据时代的到来,金融大数据应用已经成为行业热点,已经广泛应用在精准营销、智能风险评估、交易欺诈识别等领域,带来了潜在的、巨大的社会效益和经济效益。国家开始重视金融大数据,国务院发布《十三五国家科技创新规划》,规划中明确提出促进科技金融产品和服务创新、建设国家科技金融创新中心等。国务院颁布的《推进普惠金融发展规划(2016-2020年)》中更是直接提到“鼓励金融机构运用大数据、云计算等新兴信息技术,打造互联网金融服务平台”。党的十九大报告明确提出,要推动“互联网、大数据、人工智能和实体经济深度融合”。国家、高校和企业开始重视金融大数据,面向金融的大数据技术吸引了越来越多的关注。将从大量的金融数据中挖掘有价值的数据与人工智能相结合,由机器代替人去挖掘信息,可实现数据的增值。
  人工智能在金融领域中有很多应用,如信用评估。信用评估是银行业务经营中非常重要的一个环节。信用风险是借款人无愿望或者无力支付其所借贷的款项而产生的风险。因此,需要有一个合适的方法对该风险进行定性、定量,进而有效识别风险,追求利益最大化。但是传统方法更多的是基于人为的经验信息进行判断,如通过信用评分卡。伴随着金融大数据时代的到来,人为判断不足以应付快速产生的金融数据,因此需要引入人工智能技术,利用机器学习来处理金融大数据,以有效地进行信用评估。
  人工智能越来越引起社会各界的关注。未来以金融大数据为背景,推动发展人工智能在信用评估方面的应用,将会给行业发展带来不可限量的增长。
  在评估的过程中,有训练集和测试集。根据训练样本建立模型分析新用户是否会违约,分成“信用客户” 和“违约客户”。在训练阶段,常常面临的一个问题是两类客户比例分布不均衡,即“好客户”占多数,而“坏客户”只占少数。在这种类别不均衡的情况下,找到一个好的方法建立模型,很好地预测新客户是非常重要的。
  在此背景下,本文根据我国金融的发展,引入机器学习中的迁移学习(Transfer Learning,TL)[1]和深度学习(Deep Learning,DL)[2]。迁移学习技术是利用以前所学的先验知识和技巧应用于新任务的学习。换句话说,迁移学习可以借助源领域中的知识来帮助目标域的学习。目前迁移学习已经应用于文本、图片、情感、视频等领域,并取得了一定的成果。笔者期望利用迁移学习技术来帮助金融大数据的学习,通过迁移其他领域的客户信息来建立客户信用评估模型,进而解决少数类样本稀疏带来的类别不平衡问题。深度学习是人工智能浪潮的巨大推动力之一。在金融服务中深度学习通过在大数据中寻找规律,减少了人工介入和人为干涉,预测客户信用评估的结果。一般是通过分层特征提取并通过激活函数寻找关联关系,解决金融大数据。最终将模型应用于银行等金融大数据分析中。
  2      相关工作
  针对金融领域中的信用评估问题对人工智能技术提出的新挑战,本文将描述人工智能技术在金融大数据中的应用,并基于迁移学习、深度学习将此模型应用于客户信用评估。
  2.1   迁移学习
  从心理学和人类智能的角度来看,人类具有利用以前学过的知识帮助新内容学习的能力。比如:一个人骑自行车技术很好,那么他在学骑摩托车过程中就会非常容易;若是一个人对弹钢琴比较熟悉,那么她会轻松的学会弹古筝。在机器视觉领域中,迁移学习的思想源于 1995 年 NIPS-95 的專题研讨会。会上开展了关于“学会学习(Learning to Learn)”的讨论。从 1995 年开始,关于迁移学习的研究已经引起了众多关注,并有多个不同名称:学会学习、知识转移、终身学习、多任务学习、归纳转移、知识整合等[3]。
  在 2005 年,美国国防高级研究计划局(DARPA)的信息处理技术办公室(IPTO)对迁移学习进行了定义:迁移学习技术能够迁移以前学到的知识和技能,并将这部分应用于目标域中的新任务学习。其中,迁移学习的目的是从一个或多个源任务中提取知识,并迁移这部分知识应用于目标域中的任务学习。在这一年,NIPS 国际会议上给出了一个关于迁移学习的比较有代表性的定义:迁移学习目的是在不同但相似的领域、任务和分布之间进行知识的迁移。具体的描述如下:
  定义(迁移学习)[1]:给定源域和学习任务,迁移学习旨在利用和中学习到的知识,并迁移这部分知识来帮助目标域中预测函数的学习。
  图1展示了传统的机器学习与迁移学习的学习过程之间的不同之处。从图1可以看出,前者的目标是对每个任务进行学习,然而后者的目标是利用少量的有标签训练数据,通过迁移源领域中的任务知识帮助目标任务的学习。
  2.2   深度学习
  深度学习的概念最先有这个想法的是G.E. Hinton等人[4]在2006年提出,主要就是将样本数据通过一定的训练方法得到多层网络结构的机器学习过程。最初提出的依据是模拟人类大脑结构,通过对大脑吸收的信号进行处理,然后给出数据解释。以图像数据为例,灵长类的视觉系统中对这类信号的处理顺序依次为:首先是检测边缘、纹理等简单的初始形状特征,然后再逐步形成更复杂的视觉形状。同样地,深度学习通过组合低层特征形成更加抽象的高层表示、属性类别或特征,给出数据的分层特征表示。   深度学习从数据中自动学习特征,从而代替人工设计特征。把原始数据通过一些简单的但是非线性的模型,逐层变化提取特征,进而变成为更高层次的,更加抽象的表达,且深层的结构使其具有很强的表达能力和学习能力。
  深度学习有着广泛的应用,例如:图像分类、语音识别、物品检测和内容描述。目前已经提出很多深度学习的方法,有卷积网络、循环神经网络、长短期记忆网络、超网络等,
  3      “人工智能+金融大数据”客户信用评估流程
  利用迁移学习和深度学习进行客户信用评估,详细的流程如下所述。
  3.1   迁移学习+客户信用评估
  客户信用评估是非常重要的一项,目前机构只采用自有的信息进行客户信用评估,忽略了其他领域带来的额外信息。比如,如某客户可能在工商银行借贷,同时也在建设银行借贷,本文认为如果某客户在工商银行是“信用客户”,那么在建设银行很大程度上也是“信用客户”,否则为“违约客户”。通过迁移其他领域的信息,可以更好地帮助评估客户,有效预防风险。
  如图2中所示,在利用迁移学习进行客户信用评估中,迁移其他领域的客户信息帮助目标域学习。与传统的客户信用评估学习不同,学习器只能利用当前目标域的客户信息进行学习预测,没有额外的信息。因而该问题转变为迁移其他领域的客户信息帮助目标域客户信用评估。同时,由于不同领域的特征分布不一致,学习器还应解决领域特征分布不一致的问题。下面详细描述利用迁移学习评估客戶信用的过程。
  (1)考虑客户来自不同业务的迁移知识信用评估。在客户进行金融业务中,客户可能会办理不同的业务,比如在某银行办理贷款业务、基金投资、股票投资等银行业务。如果某客户在办理其他业务拥有很好的信用时,本文认为在信用还贷上很可能归类为“信用客户”,否则为“违约客户”。因此,需要考虑客户在进行不同业务办理时,迁移客户信息进行建立信用评估模型的问题。这个过程需要研究:①如果客户信用评估选择了考虑客户业务信息,那评估应该选择一项银行业务信息还是多项业务信息?如果选择了一项业务信息,则如何迁移有效的客户业务信息帮助目标客户信用评估?②如果选择了多项业务协同帮助目标客户信用评估,则应如何建立合理的数学模型,实现知识的协同有效迁移?
  (2)考虑客户来自不同银行的迁移知识信用评估。在客户进行业务办理存在中,客户可能会的过程在不同的银行办理业务信息,如某客户可能在工商银行借贷,同时也在建设银行借贷。本文认为如果某客户在工商银行是“信用客户”,那么在建设银行很大程度上也是“违约客户”。因此,需要考虑不同银行客户信息进行客户信用评估问题:①如果客户信用评估选择了考虑银行信息,那评估应该选择一家银行还是多家银行?如果选择了一家银行,则如何迁移该银行客户信息帮助目标客户信用评估?②如果选择了多家银行共同帮助客户信用评估,则应如何建立合理的数学模型进而有效预测“信用客户”和“违约客户”。
  (3)领域特征分布不一致对于目标域的学习有着重要的影响。为了进一步提高客户信用评估的预测率,学习器还要解决领域分布不一致的问题。领域知识的迁移最有利于目标域客户信息的评估,考虑利用领域自适应(Domain Adaptation)来解决这个问题。领域自适应将不同领域(如两个不同的数据集)的数据特征映射到同一个特征空间,这样可利用其他领域数据来增强目标领域训练,最大化地减小领域间的分布差异,有效解决领域间数据分布的变化。根据领域自适应研究解决迁移知识领域特征分布不一致方法,尝试建立基于迁移学习的客户信用评估模型,提高预测率。
  在基于迁移学习的客户信用评估中,阐述了迁移哪部分知识用于迁移,以及迁移过程中需要解决的问题。
  3.2   深度学习+客户信用评估
  利用深度学习技术来进行客户信用评估是一种趋势,深度学习可以学习更高层的特征用于预测风险。尤其金融大数据时代的到来,传统方法已经不能满足金融数据的需求。深度学习可以有效处理大数据,挖掘潜在数据价值,有效完成评估。
  利用深度学习,建立如图3所示的客户信用评估整体模型框架,整个模型可以分为三部分:
  (1)客户信用数据的获取。一方面,客户信用数据可以利用标准信用数据集。另一方面,也可以从各大银行获取有效客户信用数据进行客户预测。
  (2)客户信用数据的特征提取。如图3所示,客户信用数据采用One-hot进行编码。输入数据包括两部分,一个是静态数据,如描述用户的基本属性的性别、职业等;另一个为动态数据,主要包括用户的银行流水记录、信用卡账单记录。经过数据编码后,得到客户信用数据的特征表示。
  (3)深度学习框架下,高级特征的学习及客户的预测率。如图3所示,数据经过编码后输入到神经网络中,通过分层学习到特征表示,进而建立合理的模型,得到 “信用客户”与“违约客户”的预测率。
  DNN(Deep Neural Network)神经网络模型又叫全连接神经网络,是基本的深度学习框架。DNN模型表达能力强,能够学习出高阶非线性特征,具有特征交叉能力的特点。
  本文将One-hot类型的特征输入到DNN进行客户信用评估预测,如图3所示。DNN方法不断发展,其基本架构模型不断改变。比如Wide and deep 模型是Tensor Flow在 2016 年 6 月左右发布的一类用于分类和回归的模型[5]。Wide and deep 模型的核心思想是结合线性模型的记忆能力(memorization)和 DNN 模型的泛化能力(generalization)。Wide 端对应的是线性模型,输入特征可以是连续特征,也可以是稀疏的离散特征,离散特征之间进行交叉后可以构成更高维的离散特征。线性模型训练中通过 L1 正则化,能够很快收敛到有效的特征组合中。Deep 端对应的是 DNN 模型,每个特征对应一个低维的实数向量,称之为特征的 embedding。DNN 模型通过反向传播调整隐藏层的权重,并且更新特征的 embedding。Wide and deep 整个模型的输出是线性模型输出与 DNN 模型输出的叠加,如图4所示。   DeepFM模型[6]的提出,包含兩部分:神经网络部分与因子分解机部分,分别负责低阶特征的提取和高阶特征的提取。这两部分共享同样的输入,如图5所示。
  通过DNN模型的改进模型,本文也将学习到的One-hot类型的特征输入Wide and deep 模型和DeepFM模型,通过交叉组合可以得到dense特征,dense特征进一步再通过神经网络模型,得到最后的预测。
  4      结    语
  本文详细介绍了“人工智能+金融大数据”客户信用评估总体框架和基本思路。客户信用评估是金融机构中一项重要的组成部分,人工智能技术的引入,为解决客户评估问题提供了一个有效的路径。其价值在于快速高效地完成客户评估,为金融机构有效识别违约客户群。
  为更好地提升“人工智能+金融大数据”客户信用评估的效率和效果,需要做好:①扩展数据。用于训练集和测试集的客户数据,合理的数据可以更好地检验模型,有效地完成预测;②完善模型。引入人工智能技术,不断完善基于迁移学习和深度学习的客户信用评估模型,以便适应时代变化、个人信息变化和政策变化。
  主要参考文献
  [1]Pan S J, Yang Q. A Survey on Transfer Learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10):1345-1359.
  [2]Minar M R , Naher J . Recent Advances in Deep Learning: An Overview[J/OL].ResearchGate,2018.
  [3]Henri J,Dillon K. Learning to learn[J]. Australian Library Journal, 1992,41(2):103-117.
  [4]Hinton G, Osindero S, Teh Y-W. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006,18(7):1527-1554.
  [5]Cheng H T,Koc L,Harmsen J,et al.Wide & Deep Learning for Recommender Systems[J/OL]. ResearchGate,2016.
  [6]Lian J , Zhou X , Zhang F , et al. xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems[J/OL]. ResearchGate,2018.
转载注明来源:https://www.xzbu.com/3/view-15272918.htm