基于朴素贝叶斯算法的客户画像分析
来源:用户上传
作者:
摘 要:近年来,客户需求日益多样化与个性化,由此利于相关数据模型来剖析客户需求点与变化方向日益重要。文章通过朴素贝叶斯模型对合同、项目等相关数据因素进行分析,借助WEKA平台探索数据因素间的内在关联关系,分析客户群体画像特征,并制定對应的客户服务策略,从而为不同类型的客户提供差异化服务。
关键词:客户需求;客户画像;朴素贝叶斯;客户服务
随着互联网经济时代的来临,市场竞争日趋激烈,客户在服务需求方面日渐倾向于多样化与量身定制。市场从生产主导转变为需求主导,客户不再是产品与服务的被动接受者,而是主动选择者。因此,客户关系管理将成为企业间竞争的核心问题,更好地了解客户、分析客户将成为企业运营工作的核心环节,越来越多的企业开始关注客户画像建设,制定“以客户为中心”的服务策略,实现客户差异化服务,提高客户满意度。
1 客户画像简介
客户画像本质是客户特征的“标签化”,通过收集与分析客户的众多属性信息,如:基本属性、社会属性、交易属性、行为偏好等,利用相关的数据模型将抽象化的客户信息进行归纳总结,通过数据模型剥离出最后的结论,形成“源于数据、高于数据”的客户标签,为企业在客户识别、精准营销、拓展市场、提升服务质量等方面提供有效支撑。
目前企业都有着大量与客户相关的业务数据,但未经过有效数据模型计算分析的数据无法产生高效的应用价值。企业从不确定性信息中作出推理和决策需要对各种结论的概率进行估计,故需要借助大数据技术,构建相应的数据模型,总结相应的规律与特征。
许多学者针对客户画像建设开展了深入研究,大同大学的周生宝等[1]提出了多基决策树联合决策的思想,分析客户流失的原因,实现了电信行业客户流失预测系统。夏国恩等[2]通过改进标准的C-支持向量分类机,构建客户流失画像。叶佳美[3]结合人工神经网络法提出一种用户相似性画像的发现方法。
2 贝叶斯原理
贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理,也称贝叶斯推理,由英国学者贝叶斯(1702—1763年)提出,贝叶斯定理公式如下:
其中,P(B|A)表示在事件A发生的前提下,发生事件B的概率;P(A|B)表示在事件B发生的前提下,发生事件A的概率;P(A)表示发生事件A的概率;P(B)表示发生事件B的概率。
朴素贝叶斯分类模型是贝叶斯分类法中最简单有效、实际应用较为成功的一种分类器,朴素贝叶斯分类法基于贝叶斯原理,其工作过程如下:
设D是训练集和其相关联的类标号集合。每个数据样本使用n维特征向量X={x1,x2,…,xn}表示,描述了对n个特征样本A1,A2,…,An对元素组的n个度量。
若有m个类C1、C2,…,Cm,一个未知的数据样本(没有编号),分类器将会预测X属于具有最高后验概率(条件X下)的类。即朴素贝叶斯分类将未知的样本分配给Ci,其条件是P(Ci|X)=P(Cj|X),1≤j≤m,j≠i。最大化P(Ci|X)对应的类Ci概率大于其他类的概率,依据贝叶斯定理,P(Ci|X)=P(X|Ci)P(Ci)/P(X)。
若类的先验概率未知,则假定这些类是等概率,即P(C1)=P(C2)=…=P(Cm),因此需要将P(X|C1)转换为最大。类的先验概率可以用P(C1)=|Ci,D|/|D|,其中|Ci,D|是D中Ci类的元组个数。
具有很多属性的数据集,计算P(X|Ci)的开销会变得很大,为降低计算开销,朴素贝叶斯分类法在估计类条件概率是假设属性间条件独立,即:
P(X|Ci)=P(x1|Ci) P(x2|Ci)…P(xn|Ci)
为了预测X的类标号,对每个类Ci,计算P(X|Ci)P(Ci),预测元组X的类为Ci,当且仅当P(X|Ci)P(Ci)>P(X|Cj)P(Cj),1≤j≤m,j≠m,j≠i,被预测的类标号就是使P(X|Ci)P(Ci)最大的Ci,经过运算即可得到分类结果。
3 客户画像实例分析
客户画像由主观客户标签与客观客户标签组成。主观客户标签由服务人员予以自主评定;客观客户标签则由相关业务数据分析归纳后评定,不以个人意志为转移,本文主要阐述客观客户标签的建设。
某公司作为电力装备制造企业,客户群主要为各电网、发电、工业、电气企业,在客户服务管理中以“从线索到合同,从合同到售后”为导向,融合服务触点,结合专业分工,将服务划分为售前、售中与售后,各阶段的客户需求均不一样,迫切需要构建各阶段的客户画像,以便为客户提供精准服务。
本次实例分析采用怀卡托智能分析环境(Waikato Environment for Knowledge Analysis,WEKA),是一个开源的、免费的非商业化数据挖掘平台,包含了数据挖掘的诸多算法模型,如聚类分析、分类分析、回归分析、关联分析等,还提供了可视化展示。
3.1 数据预处理
获得该公司的2016—2018年的合同、项目建设计划、财务等相关业务数据共计13 625条,剔除无效数据100条。将应回款额为null的赋值为0。将合同中的产品线与该公司最新产品线目录进行比对,并修正更新。WEKA平台进行数据挖掘,面临的第一个问题往往是数据不是arff格式,实验的原始数据表为xls格式,将xls文件转换为cvs文件,通过WEKA平台的过滤器将cvs文件转换为arff格式。此外,并不是所有的数据因素都和挖掘任务相关,在进行数据挖掘之前,需要将与挖掘分析任务无关的数据因素去除,从而提高数据挖掘的效率,提升分析结果的准确性。
3.2 特征筛选 构建客户画像模型涉及的数据因素包括合同总额、客户所在地经济水平(GDP与售电量)、核心产品占有率、项目量、项目建设周期、项目利润率、合同收入、合同已回款、合同应回款、客户投诉量等(见图1)。
3.3 实例分析
客户画像涉及的相关数据因素包括:
合同总额,近3年公司签署的合同额。
项目總量,近3年公司承建的项目量;各类型项目占比,各类项目合同总在合同总额中的占比。
项目建设周期,项目开始至结束的时长。
项目验收及时率,按期验收的项目数在计划验收的项目数中的占比。
项目经理工龄,参加工作的年限。
客户所在地售电量,客户所在省份售给用户(包括趸售户)的电量。
客户所在地GDP,客户所在省份的国民生产总值。
通过WEKA平台中的朴素贝叶斯模型对客户特征进行分析,如表1所示,客户画像相关的数据因素作为分量属性,客户类型作为决策变量属性。
该公司的核心产品线为信息安全设备及接入系统、传输网设备、ERP软件、电网调度管理、信息安全咨询服务、电网生产管理、运营监测、通信系统集成、通信综合监管及服务,上述产品线的销售额占近3年公司销售额的59.30%。项目分布在全国各地,涉及23个省、5个自治区、4个直辖市,其中江苏、北京、甘肃、山东、辽宁、安徽、广东、福建、浙江、陕西的项目总额占近3年销售额的69.55%,结合售前、售中、售后方面的需求,经归纳,各类型的客户群体特征如下。
3.3.1 战略客户群特征
战略客户群产品销售额占比最大,客户所在省份分布于经济发达地区,由于经济发达,相应的电力设施建设投入也较大,导致产品需求量也较大。公司在战略客户群所投入资源量最大、服务人员素质最优,建设周期相对较短,客户投诉量很少,客户满意度高,项目的利润率较高。
3.3.2 利润客户群特征
利润客户群的特征呈现出核心产品销售额比例较高,其他产品线的销售额比例较低,整体项目利润较高。主要原因是该区域客户有大量的租赁项目,租赁项目的销售额较大,且涉及公司核心产品的租赁,但租赁业务持续性不足,后续市场销售额持续增长乏力,且客户的投诉量呈递增趋势。
3.3.3 潜力客户群特征
潜力客户群数量最大,销售额呈逐年递增趋势,核心产品销售额占比仅为公司平均水平,单个客户单位的销售总额一般。此外,客户的诉求量较多,尤其是项目建设规范性方面呈现的问题比例较高。在建设进度方面,项目建设周期最长,导致项目成本增加,利润率不高的现象。
3.3.4 普通客户群特征
普通客户群主要分布在经济欠发达省份,核心产品销售额占比远低于公司平均水平,单位客户销售较低。由于客户所在地距离公司所在地较远,导致售后服务不到位,用户投诉主要反馈在产品质保与售后服务方面。
3.4 实验验证
为验证分析的结论,采用K折交叉验证法进行验证(见图2)。将2016—2018年的合同与项目数据随机划分为10等份,不重复的选取其中一个子样本作为测试集,其他9个样本用来训练。将测试集与验证集互相形成补集,最终得到一个单一估测。该方法的优势在于,保证每个子样本都参与训练且都被测试,降低泛化误差。
通过交叉计算验证,获得本次实验验证的分类比例与混合矩阵。总实例数为2 203个,其中真确分类的实例数为2 082个,正确率约为94.5%;错误分类的实例数为121个,错误率约为5.5%。混合矩阵(见表2)显示:
(1)战略客户的数量为550个,其中510个划分正确,40个划分错误。
(2)利润客户的数量为75个,其中65个划分正确,10个划分错误。
(3)潜力客户的数量为1 326个,其中1 274个划分正确,52个划分错误。
(4)一般客户的数量为252个,其中233个划分正确,19个划分错误。
4 应对策略
针对客户画像分析结果,可以结合以下应对策略开展客户服务工作:
(1)针对超级客户群的服务策略。该客户群体为公司贡献了超高比例的合同额、利润,可为客户提供“保姆式”客户服务,定期开展客户回访工作,倾听客户心声,邀请客户参与公司产品的规划与研发,不断拓展业务领域宽度与专业领域深度,巩固核心产品线的优势,培育新的业务增长点,务必保持与客户长期友好的合作。
(2)针对大型客户群体的服务策略。该客户群体因政策因素,大额的租赁项目贡献了较高比例的合同额与利润。因租赁项目涉及资产回购问题,故需要开展“跟踪式”服务,实时关注政策发展,做好租赁产品的售后运维服务,保障项目回款与租赁资产回购工作的顺利开展。
(3)针对潜力客户群体的服务策略。该客户群体基数大,业务发展趋势良好,对公司的业务发展至关重要,故需要开展“贴心式”服务,主动协助客户开展业务规划,注重整体战略布局,提高营销的精准性。在工程服务方面,需要持续加大资源投入,合理安排进度,规范工程操作,提高服务质量,力争将潜在客户培育为利润客户或战略客户。
(4)针对一般客户群体的服务策略。该客户群体因所在地经济水平较低,相对产品与服务需求量较少,故需要开展“精准式”服务,突出重点核心产品的销售,在服务方面引进本地服务供应商,适当比例外包相关非核心服务工作,降低服务成本,强化供应商管理,规划售后服务保障,努力提升客户满意度,促进销售业务稳中有升。
5 结语
综上所述,在互联网、大数据、人工智能等新一代信息技术与实体经济深度融合的趋势下,客户服务的精髓在于准确识别客户需求,制定相应的服务级别,为客户提供所需的服务,通过服务为客户创造价值。通过朴素贝叶斯分类方法,分析客户群体的特征及内在关联关系,因地制宜,制定相应的服务策略,将为企业开展精准识别客户需求、产品模式创新、服务过程规范性管理以及服务质量管理等方面提供有效的数据支撑。
[参考文献]
[1]周生宝,郭俊芳.客户流失预测模型设计与实现[J].计算机系统应用,2009(5):170-172.
[2]夏国恩,邵培基.改进的支持向量分类机在客户流失预测中的应用[J].计算机应用研究,2009(6):2044-2046.
[3]叶佳美.基于贝叶斯网络的用户行为相似性研究[J].软件工程与应用,2019(8):66-71.
Abstract:In recent years, the demand of customers is becoming more and more diversified and personalized, thus facilitating the relevant data model to analyze the increasing importance of the customer’s demand point and change direction. Based on the simple Bayesian model, the paper analyzes the related data factors such as contract, project and so on, and uses the WEKA platform to explore the internal relation between the data elements, to analyze the characteristics of the image of the customer group, and to develop the corresponding customer service strategy. Thereby providing differentiated services for different types of customers.
Key words:customer needs; customer portraits; simple Bayesian; customer service
转载注明来源:https://www.xzbu.com/8/view-15146494.htm