基于卷积神经网络在征信方面的研究
来源:用户上传
作者:
卷积神经网络(CNN)最早用于手写数字识别并一直保持了其在该问题的霸主地位。近年来卷积神经网络在多个方向持续发力,语音识别、人脸识别等方面均有突破。
一、项目简介
基于卷积神经网络(CNN)的征信系统,作为个人征信系统第三方机构,利用合作单位已有大数据对卷积神经系统进行训练,使系统具有高准确率对未来借贷人交易数据进行分析,快速得出是否可提供贷款及借贷金额和时间。
二、项目目标
目前我国的个人征信系统主要以银行的信贷信息和个人缴费信息为参数,在未来借贷人信用预测方面仍有缺陷。利用卷积神经网络的征信系统可以对自然人进行预测,减少损失,快速得到可否借贷及借贷额度,同时系统本身所具有的传输加密功能也能良好防止客户信息的泄露。
三、项目内容
(一)基于卷积神经网络CNN的征信系统框架
征信作为金融业的基础设施,不是简单拿到数据就可以了,还要对数据进行加工或者评价。为此,我们提出了CNN框架来进行征信系统的研发。
(二)特征工程
将用户的每条记录的交易数据转换为特征矩阵,通过相应的数据转化为可以在CNN模型显示。
(三)CNN建模
模型中共有7层,模型的输入是一个特征矩阵。前四层分别是卷积层、下采样层、卷积层和池化层。最后三层则是全连接层。
(四)实验及模型评估
将任意客户交易数据样本输入CNN结构,利用样本自身差异性和排列多样性,对结构进行大量重复训练以提高其识别准确率,从而实现本项目征信系统的不断完善。后期将真实客户交易信息,运用CNN征信系统进行实际评级操作,从而来检验评估项目系统的实际应用准确性。
研究过程部分展示之特征工程部分:
在编程中我们将数据中的sex,edu,marry,age,paydue,bill,pay,label,记录在数组中,如图:
首先将借贷人的自然属性放在中间的6*12的像素格中(img3)。部分代码如下:
其中金額部分由于数字过大,我们将数字除10000后处理,得到的三位数由于只有100,我们用在两个像素格里填10表示,两位数的我们用十位和个位分别填在不同像素格的表示。
关于pay,bill和paydue的记录由于有负数的存在,所以我们根据上正下负,左正右负的原则,将他们分别反正围绕img3的img1(bill和pay中的正数),img2(bill和pay中的正数),img4(paydue中的正数),img5(paydue中的正数)中。
这样就基本完成了数字到图像的转换,例如,把第2480个人的信息转化为图像,得到图像:
四、创新点
(一)引用卷积神经网络处理征信问题
在此之前由Kokkinaki提出了决策树和布尔逻辑函数,对个人进行征信评估。然而效果并不是很理想,因此我们使用CNN可以有效地降低特征冗余,避免模型的过拟合。
(二)特征转化法
CNN可以用于图像分类和语音信号领域,但并不是所有类型的数据都适用于CNN模型,因此提出特征转换的方法。
(三)数据预处理
CNN模型很适合用于海量数据的训练,同时它有避免模型过拟合的机制。我们将通过大量基于真实的数据进行训练和测试,并在不断的实验过程中,降低偏差值。
(四)信息安全性
通过CNN模型生成的热力图在行和列的形式上有很强的局部相关性,保障信息被处理时的隐蔽性,及用户个人信息的安全性。
五、市场推广计划
当前中国市面上对CNN技术并未有特别成熟的应用,此领域在市面上属于蓝海市场;同时CNN技术在 处理征信问题,特征转化法,数据预处理,信息安全性点上的处理都体现了极大的创新性,可以充分完善当前信贷机构的用户征信问题,因此CNN的技术应用仍有相当大的使用前景。
基金项目:大学生创新创业项目:《基于卷积神经网络在征信方面的应用》201810173044。
作者单位:东北财经大学
转载注明来源:https://www.xzbu.com/1/view-15130923.htm