您好, 访客   登录/注册

大数据个人信用体系、模型及案例综述

来源:用户上传      作者:

  摘要:近年来随着金融科技的迅猛发展,个人信用体系在大数据及云计算技术发展背景下拓宽了边界和内涵,解决了传统信用评级覆盖不足的痛点并能有效辅助识别真实贷款需求及贷后风险,本文对近年大数据个人信融体系及个人信用体系模型搭建和进行了综述并对实用案例进行分析。
  关键词:大数据 个人信用体系 建模
  近十年来,随着移动互联网和金融科技的迅猛发展,传统的个人信用体系已经不能满足市场需求,由于我国的个人信用体系建设起步较晚,直接影响了我国金融市场的交易秩序。为了夯实金融行业发展的基础推动我国市场经济健康发展,以大数据为基础对个人信用体系进行拓宽和优化对我国征信行业的发展有着重要的意义。
  一、大数据个人信用体系的构建
  大数据不同于传统数据主要体现在三个方面:一是体量大,体现在规模和传输量;二是流动速度大,数据实时或接近实时获取和传输;三是种类多,数据结构形式多样。
  构建个人信用体系的大数据来源有:一是个人产生的数据,如社交网络信息、产品评价、搜索记录、购物喜好等;二是商业过程数据,如物流数据、支付数据等,也有数据公司采集传统商业数据,如大型百货公司客流量、大型游乐场客流量等数据;三是来自GPS定位、车辆轨迹和个人穿戴设备的数据(廖理,2019)。
  大数据的发展为传统信用评级机构提供了更为先进的数据采集和数据分析手段,有效地克服了传统征信单值测度的局限性(Lin,2015),不仅大幅度提高了评估结果的准确性,还将非传统信用指标纳入了评级体系,从而推动了普惠金融实践(Packin&LevAretz,2016)。
  国内研究者主要集中于研究大数据个人信用体系的构建:蔡金鑫等(2018)等过改进传统的“5C信用评估法”,构建基于大数据的个人信用评估指标体系,为大数据征信的发展提供参考;王达山(2016)通过分析互联网金融衍生的个人信用数据,综合传统信用评价数据,从个人身份、信用历史、经济能力和社会信用属性四个信用维度,提出了运用个人信用能力模型来对个人信用能力进行评价;方匡南等(2018)提出了基于多源数据融合的个人信用模型,可以同时对多个数据集进行建模和变量选择,同时考虑了数据集间的相似性和异质性。所提出的整合模型在变量选择和分类效果方面都具有明显的优势。此外,将整合模型应用于城市和农村两个数据集的个人信用评分中发现,整合模型在实际应用中也有很好的表现。
  已有研究针对基于大数据的个人信用体系提出了诸多创造性的观点,更多的研究聚焦于深入探讨如何应用大数据建立个人信用评估模型。
  二、大数据个人信用评估模型及方法
  袁章帅等(2019)将lGSO-BP协同集成学习算法应用于社交网络信用评价中,建立基于IGSO-BP协同集成学习算法的社交网络信用评价模型。梁心怡(2019)通过统计分析,结合大学生网络消费信贷的个人信用数据,通过定性和定量分析建立适合大学生的个人信用评分模型。
  宋丽平等(2015)针对P2P网络借贷平台的特点,确定个人信用风险评估指标,并以平台借款人个人信用等级作为预测输出目标,创建BP神经网络模型,使贷款人和网贷平台能够更好地了解借款人的信用状况。都红雯等(2018)以微贷网为例,在该平台原有信用风险评估指标基础上,借鉴国外FICO信用评分方法和国内芝麻信用评分方法,尝试构建适用于国内P2P网贷平台的信用评估指标体系,用于评估借款者信用。并选取微贷网平台网站6917个借款者的数据、采用SVM-Logistic组合模型、运用修正后的指标体系进行信用风险评估,将测试结果与实际结果比较,优化了信用风险评估体系。谢陈昕(2019)对比分析了基于Logistic回归、决策树、随机森林、支持向量机和神经网络的个人信用风险评估模型,并在此基础上提出了采用4种机器学习算法综合筛选重要变量再建立Logistic回归模型的两阶段组合模型。应用这一模型对“人人贷”平台借款人数据进行实证研究。结果表明:该模型相较于Logistic回归模型有着更高的精确度,克服了数据维度及定性变量数量的限制,而且提高了单一机器学习算法的指标解释能力,说明基于机器学习算法的Logistic回归模型对P2P网贷平台的借款人信用风险评估有更好的适应性。
  陆健健等(2019)针对银行客户信用评估模型不健全不完善等问题,在对比随机森林(RF)、GBDT和XGBoost三种集成算法基础上,提出基于XGBoost算法的金融客户信用评估模型。依据计算得到的相关多元评价指标对个人信用评估进行对比研究,实证结果表明,建立在XGBoost集成算法上的个人信用评估模型性能最优,在准确率指标上比随机森林(RF)高出6%,比GBDT算法高0.8%。王磊(2018)建立信用个人信用评价指标体系,利用BP神经网络算法,建立了借款人个人信用评价模型,为了达到更好的效果,采用不同的激活函数及权值调整方法进行模型优化,最终建立基于拟牛顿算法的BP神经网络模型,能达到对用户信命评级96.28%的准确率。
  张洁琳(2018)通过对贝叶斯网络进行分析,以最小风险决策准则作为基本原则,在对用户进行信用评估时建立了一种全新的用户信用评估模型。在对数据进行采集的过程中,通过交叉验证的方式对数据进行了验证,最终检测结果表明,在对用户进行信用评估的过程中基于最小风险准则的贝叶斯以及贝叶斯网络分类模式可以有效的降低信用评估的风险。许彩艳等(2019)根据某商业银行提供的客户历史数据,首先基于8万条记录,628个变量的原始数据进行统计描述分析,筛选出有效数据集:其次利用Lasso估计,找到最优调节参数lambda,根据lambda与变量数目对应走势图,最终筛选出19个变量,最后建立Lasso-logistic模型,分析結果显示:训练集预测准确率为84.62%,测试集预测准确率为78.80%,模型外推效果良好。
  三、大数据个人信用评估典型案例
  芝麻信用是是蚂蚁金服2015年初推出的第三方征信机构,它是根据各不同种数据类型设计得出来的信用体系,通过阿里云计算、机器学习等技术手段来反映用户的信用情况,已经在消费分期、现金分期、租赁等场景便用。
  以国际主流个人信用评分模式作为参考,芝麻信用分从低到高共分为五级,由低到高代表着不同的信用等级。芝麻信用分数越高则代表信用越高,相反则代表低信用。具体评分结果由五个维度共同决定,分别是:信用历史、行为偏好、履约能力、身份特质、人脉关系。利用大数据技术,芝麻信用综合考虑等五个维度信息,应用了一种改进的树模型GBDT(G radient BoostingDecisionTree),深入挖掘特征之间的关联性,衍生出具备较强信用预测能力的组合特征,并将该组合特征与原始特征一起使用逻辑回归线性算法进行训练,从而获得一个具备可解释性的准确的线性预测模型。对个人用户信息加工后得出最后评分结果。
  目前京东白条业务已面向全部用户开放,用户申请开通时京东会基于用户消费行为数据,应用大数据建模技术建立量化模型,实时评估违约风险和额度测算。京东白条可以得知白热度信用评分主要基于用户在京东商城注册、浏览、下单、支付、配送、评价等的海量数据,并结合用户消费和还款情况,深度挖掘用户身份特征和偏好,评估用户的履行能力,进而预测用户的信用风险水平。
  四、结语
  基于大数据的个人信用评分迎合了今年来移动互联网及科技金融的发展,为在人民银行的征信中心无法覆盖的人群提供个人信用评分,基于大数据可以成为个人信用评分的重要指标数据,进而使得该部分人群能够等到相应的金融服务。大数据将拓宽传统个人征信及信用系统的维度,实时构建全新的个人信用评分体制防范潜在的信用风险。
转载注明来源:https://www.xzbu.com/3/view-14960292.htm