生存分析方法在客户流失分析中的应用
来源:用户上传
作者:
【摘要】本文基于生存分析方法,结合美国Cell2Cell电信公司的客户数据进行客户流失分析,探索该公司续约相关服务与客户流失之间的关系。首先使用Kaplan-Meier法生成客户订购服务的生存曲线,分析结果显示客户是否曾致电续约服务团队与客户留存率存在显著相关性,无致电记录的客户留存概率下降相对较缓。进一步采用Cox比例风险回归模型进行多因素分析,结果表明致电服务续约团队次数越多的客户流失风险越大,而接受续约建议次数越多的客户流失风险越小。最终本文根据分析结果提供了防止客户流失的具体建议。
【关键词】生存分析;客户流失
作为企业防止客户流失的重要手段,客户流失分析能够洞悉客户流失潜在原因,从而为客户关系的维系提供参考。随着客户获取成本的提高,如何有效地进行客户流失分析已成为企业关注的焦点。近年来,有关客户流失的研究主要集中在流失客户的识别预测方面,关注的重点在于如何通过优化决策树、支持向量机、人工神经网络等机器学习或深度学习模型实现对客户最终是否流失的精准预测。然而在大多数实际应用中,客户流失往往是一个动态过程,侧重于识别流失客户的预测模型不能很好地利用删失数据,很难捕捉到客户流失的概率随时间发生的变化。因此,本文将生存分析方法引入到客户流失的场景中。生存分析是统计学的一个重要分支,起源于18世纪,是医学和生物学领域分析观察对象死亡发生时间及死亡相关因素的一种重要方法,其优势在于可以充分利用多种生存场景下的删失数据。目前,生存分析已被应用于金融、工程、社会科学等诸多领域。
本文根据生存分析方法的基本概念,构建客户流失场景下的生存时间模型、生存函数估计模型与风险函数回归模型,并结合美国Cell2Cell電信公司的客户数据进行具体分析,探索该公司续约相关服务与客户流失的关系。
1 客户流失场景下的生存分析模型构建
1.1生存时间模型构建
2 基于生存分析方法的客户流失分析
2.1数据获取与简介
本文所采用的美国Cell2Cell电信公司客户数据集来自杜克大学特瑞数据客户关系管理中心,含记录共71047条,其中删失数据有14711条,占比约20.9%,说明截止到观测终止,尚未停止订购服务的客户数量约占总客户数量的20.9%;含变量共58个,包括个人信息、信用评分、服务类型、付款方式等客户信息。其中,表示预设事件与生存时间的两个重要变量分别是“是否流失”与“订购服务持续月份数”,前者表示客户在观测期结束前是否停止订购服务(1=流失客户;0=非流失客户),后者表示从观测期开始到客户停止订购服务或观测期终止所经历的时间段,即客户订购服务的持续月份数(以月为单位)。在此基础上,为探索该公司续约相关服务与客户流失概率的关系,选取与此相关的三个变量“是否有致电记录”、“致电累计次数”与“接受续约建议累计次数”用于后续分析,分别表示客户是否曾致电公司的续约服务团队(1=有致电记录;0=无致电记录)、客户向服务续约团队致电咨询的累计次数以及客户接受续约建议的累计次数。
2.2基于Kaplan-Meier法的客户流失分析
根据“是否流失”与“订购服务持续月份数”两个变量,可以通过Kaplan-Meier法估计得到生存函数并生成全部客户订购服务的生存曲线,如图1所示。图中横轴表示截止到观测结束客户持续订购服务的月份数,纵轴代表t个月后客户仍未停止订购服务的概率,即客户留存概率。阴影部分表示生存函数的上下置信区间。从图中可以看出,随着客户订购服务持续时间的增加,客户留存概率从100%开始逐渐下降。当订购持续时间达到20个月时,客户留存概率下降到80%左右。
接下来考虑变量“是否有致电记录”对客户留存概率的影响,该变量根据客户是否曾致电续约服务团队将全部客户细分为两组。图2展示了两组客户订购服务的生存曲线。通过观察可以初步判断两组样本的客户留存概率存在一定差异,相比有致电记录的客户,无致电记录的客户留存概率下降较缓,流失速度较慢。采用Log-Rank法对两组生存曲线整体比较,检验结果显示P=0.0001,充分验证了在0.05的检验水平下两组客户的留存概率存在显著差异。
2.3基于Cox比例风险回归模型的客户流失分析
由于Kaplan-Meier单变量模型每次只能纳入一个分类变量且无法将连续变量纳入分析,接下来采用Cox比例风险回归模型分析多个连续变量对客户流失的共同影响。为进一步分析客户致电咨询续约与客户停止订购服务之间的联系,选取与此相关的两个连续变量“致电累计次数”、“接受续约建议累计次数”作为协变量,前者表示客户向服务续约团队致电咨询的累计次数,后者表示客户接受续约建议的累计次数。由于上述变量与Cox模型广义线性形式中的对数风险比存在非线性关系,为使纳入模型的变量符合比例风险假设,根据Python支持生存分析的Liflines包提供的调整建议分别取变量“致电累计次数”、“接受续约建议累计次数”的平方作为协变量。Cox比例风险回归模型的分析结果如表1所示。
结果中的风险比例exp(coef)以1为基准,反映了协变量对客户流失风险产生的效应大小。表中结果可以解释为在其他协变量不变的情况下,客户之间进行横向对比,客户向服务续约团队致电累计次数的平方每多一个单位,其在该月份停止订购服务的风险将横向高出12%;客户接受续约建议累计次数的平方每多一个单位,其在该月份停止订购服务的风险将横向减少12%。根据结果中P值的大小可以判定,在0.05的检验水平下以上两个协变量对客户流失风险存在显著影响。
3 结论与启示
本文采用生存分析的一系列方法,对美国Cell2Cell电信公司的客户数据进行了客户流失分析。由Kaplan-Meier法估计得出的全部客户订购服务的生存曲线图可以看出,当订购持续时间小于10个月时,该公司客户留存率下降较为平缓,之后随着订购持续时间的增加,客户留存率呈明显的持续下降趋势。造成此种现象的原因可能是客户在初次订购服务的前10个月内享受较高程度的优惠,客户留存概率较高;但随着订购持续时间的增加,续约条款优惠程度下降,用户陆陆续续选择致电续约服务团队停止续约。另外,单因素分析的结果表明有致电记录的客户具有更低的留存概率,进一步验证了以上原因。根据Cox比例风险回归模型的分析结果,虽然致电续约服务团队次数越多的客户具有更高的流失风险,但公司提供的服务续约建议能够在一定程度上阻止客户停止订购服务。因此,该公司应加强对电话咨询团队的培训与建设,提升服务质量,致力于提供更加多样化、个性化的服务续约方案,提供对客户更具吸引力的续约建议,从而进一步降低客户的流失风险。
参考文献:
[1]Luo Bin,Shao Peiji,Liu Juan.Customer Churn Prediction Based on the Decision Tree in Personal Handyphone System Service[P].Service Systems and Service Management,2007 International Conference on,2007.
[2]邝涛,张倩.改进支持向量机在电信客户流失预测的应用[J].计算机仿真,2011,28(7):329-332.
[3]周捷,严建峰,杨璐,夏鹏,王猛.LSTM模型集成方法在客户流失预测中的应用[J].计算机应用与软件,2019,36(11):39-46.
[4]李杏.生存分析的基本方法及其运用[J].华南预防医学,2016,42(5):498-500.
[5]Lore Dirick,Gerda Claeskens,Bart Baesens.Time to default in credit scoring using survival analysis:a benchmark study[J].Journal of the Operational Research Society,2017,68(6).
[6]姜勇,韦朝奥,陈绍辉,陈亮,张爱辉,陈余.基于生存分析的设备剩余寿命预测技术研究[J].机电工程技术,2018,47(4):160-164.
[7]Gao Min,Sa Zhihong,Li Yanyu,Zhang Weijun,Tian Donghua,Zhang Shengfa,Gu Linni.Does social participation reduce the risk of functional disability among older adults in China? A survival analysis using the 2005-2011 waves of the CLHLS data.[J].BMC geriatrics,2018,18(1).
转载注明来源:https://www.xzbu.com/2/view-15149601.htm