基于C4.5算法的农业险种可持续性挖掘研究
来源:用户上传
作者:宋正阳
摘要为了能够高效地分类出农业保险承保与理赔业务连续数年变化差异大的险种,为相关从业人员深入研究农业保险的实施与创新提供决策支持与目标定位服务,以北京市政策性农业保险数据为依托,通过预先设定评价指标体系,研究经典决策树C4.5算法筛选目标险种的效果。结果表明,在排除政策影响的情况下,C4.5算法提高了对农业目标险种筛选的效率,可为相关从业人员开展重点险种的改革创新或开发新的服务业务提供参考依据。
关键词农业保险;C4.5算法;可持续性;北京市
中图分类号F840.66文献标识码A
文章编号0517-6611(2020)04-0235-04
doi:10.3969/j.issn.0517-6611.2020.04.068
开放科学(资源服务)标识码(OSID):
Research on Sustainability Mining of Agricultural Insurance Based on C4.5 Algorithms—Taking Beijing’s Policy Agricultural Insurance as an Example
SONG Zheng-yang(Agricultural Information Institute of the Chinese Academy of Agricultural Sciences, Key Laboratory of Digital Agricultural Early-warning Technology, MOA, Beijing 100081)
AbstractIn order to effectively classify the different types of insurance in the agricultural insurance underwriting and claims settlement business for several years, to provide decision support and target positioning services for the relevant practitioners in-depth study of the implementation and innovation of agricultural insurance, we studied the effect of classical decision tree C4.5 algorithm in screening target insurance species by setting up an evaluation index system in advance based on Beijing's policy-oriented agricultural insurance data.The results showed that the C4.5 algorithm improved the efficiency of screening agricultural target insurance, and could provide references for relevant practitioners to carry out reform and innovation of key insurance or develop new service business.
Key wordsAgricultural insurance;C4.5 algorithm;Sustainability;Beijing
農业保险是对农民生产风险的一种保障,我国农业保险起步较晚,但发展较快,全国各省均针对自身的地域特点开展了不同形式的农业保险业务,开发的险种各有不同,仅北京地区开展过的险种就多达59种(含已停售险种),每个新险种的产生都需要保险公司或科研机构投入大量智力资源来开发完成。一个好的农业险种必须能够平衡农户利益与保险公司利益,其效果发挥需要经过市场验证、(结合政策)调整、再验证反复进行。保险公司为了提高自己的服务质量,同时符合政府对农业保险实施精细化管理与市场的需求,需要不断地探索险种的改良与开发。
国内外学者对农业保险新技术或模型[1-3]、农业保险政策或发展模式[4-6]以及保险实施效果或评价进行了研究[7-8] ,但鲜有对历史险种的绩效评价方面的研究。
鉴于此,笔者通过农业保险承保与理赔环节重要节点数据连续若干年的变化趋势建立一种农业险种的绩效评价方法,采用C4.5决策树算法快速分类农业险种承保与理赔实施效果差异,判断哪些险种需要创新改革以适应新的市场与政策环境或深度挖掘出新的险种服务,旨在为相关从业人员开展重点险种的改革创新或开发新的服务业务提供参考依据。
1农业险种绩效评价
政策性农业保险是以保险公司为依托,政府通过保费补贴扶持,对种植业、养殖业及涉农保险标的物因遭受自然灾害和意外事故造成的经济损失提供的保险。在市场相对成熟的情况下,从险种连续几年农业保险的实施效果来做判断,从而反推其他因素影响,得出农业险种的评价结果。
1.1险种实施结果指标选择以种植业与养殖业为例,每个险种的实施结果均反映在如下几个方面:①承保环节指标。它包括投保数量,投保户次,签单保费。实例中指标样本数据主要反映的是农业险种的种养规模变化、参与农户数量变化与总保费的变化。②理赔环节指标。它包括赔付户次,赔付数量,赔付金额,赔付率。实例中指标样本数据主要反映的是受灾后保险赔付金额变化、受益户次变化、灾损数量变化以及赔付率波动变化。依据上述基础指标,设定农业险种评价指标(表1)。 由表1可知,设定承保环节指标中有不小于2项是持续增加的,则承保指标为“高”,反之为“底”;同样,理赔环节中有不小于3项是持续增加(或非<10%)的,则理赔环节指标为“高”,反之为“低”。当承保指标与理赔指标评价结果不一致时(即一个为“高”另一个为“低”),险种评价为需要重点研究险种。
1.2样本数据集选择
依托北京市农村金融与风险管理信息平台,可以获得北京地区相关完整、准确的政策性农业保险数据。取2016、2017、2018年3年保单与理赔数据为试验训练样本,该数据集包含了北京地区13个区县和4家集团公司共53个险种的数据,其中承保2.4万条数据、承保明细25.7万条数据、理赔11.9万条数据和理赔明细27.6万条数据。通过对数据集的归类计算,依據表1指标描述引出指标结果集,表2列出了部分险种指标样本数据集。
2决策树算法
2.1C4.5算法
决策树算法作为一种分类算法,目标就是将具有p维特征的n个样本分到c个类别中去,它是判断给定样本与某种属性相关联的决策过程的一种表示方法, 该方法广泛应用于数据挖掘和机器学习等领域,用来解决与分类相关的问题,目前比较经典的决策树生成算法有ID3、C4.5和CART树3种。
决策树C4.5 算法是构造农险险种绩效评价决策树,该算法的输入是一张关系表,由若干不同的属性及若干数据元组(称为训练样本数据集 ) 组成。该算法采用信息熵的方法,比较各个判定对象属性的信息增益率的大小,选择信息增益率最大的属性进行分类,递归生成一个判定树。
2.2算法描述
参考表2的数据样本数据集中,取属性集中D={保费趋势,投保数量趋势,投保户次趋势,赔付金额趋势,赔付户次趋势,赔付数量趋势,赔付率波动},评价结果集类别有P={PjUp,PjDown}。
2.2.1计算类别信息熵。
信息增益实际上是ID3算法中用来进行属性选择度量的。它选择具有最高信息增益的属性来作为节点N的分裂属性。该属性使结果划分中的元组分类所需信息量最小。对D中的元组分类所需的期望信息为下式:
Info(D)=-mi=1pilog2(p2)(1)
式中,m指结果集中元素不同类别个数(实例中m为2),pi为第i个结果集类别元素在样本数据集中的个数与样本数据集总行数的比值,例如表中“评价结果”共计y个,其中PjUp有x个,则pi=x/y,Info(D)又称为熵。
2.2.2计算每个属性的信息熵。
现在假定按照属性A划分D中的元组,且属性A将D划分成v个不同的类。在该划分之后,为了得到准确的分类还需要的信息由下面的式子度量:
InfoA(D)=yj=1|Dj||D|×Info(Dj)(2)
式中A为D的属性分类,比如“保费趋势”,y为“保费趋势”值中不同分类(BaoFeiUp,BaoFeiDown,BaoFeiOther)个数(这里为3),Dj为每个不同分类元素在样本数据集中的个数(例BaoFeiUp的总个数),D为样本集总行数 ,Info(Dj)为样本数据集中单独提取出某一个分类组成的表的熵(例如,只取样本数据集—表2中含BaoFeiUp的数据行,组成的新表求熵)。
2.2.3计算信息增益。
信息增益定义为原来的信息需求(即仅基于类比例)与新需求(即对A划分之后得到的)之间的差,即:
Gain(A)=Info(D)-InfoA(D)(3)
2.2.4计算属性分裂信息度量。
用分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息,把这些信息称为属性的“内在信息”。信息增益率等于信息增益/内在信息,会导致属性的重要性随着内在信息的增大而减小(也就是说,如果这个属性本身不确定性就很大,那我就越不倾向于选取它),这样算是对单纯用信息增益有所补偿。
HA(D)=-yj=1|Dj||D|×log2(|Dj||D|)(4)
2.2.5计算信息增益率。信息增益率定义:
IGF(A)=Gain(A)/H(A)(5)
选择具有最大增益率的属性作为分裂属性[3,9-10]。
3实例分析
总结上节所述算法流程如下:
While(当前节点非叶子结点)
(1)计算当前节点的类别信息熵Info(D)(以类别取值计算);
(2)计算当前节点各个属性的信息熵Info(Ai)(以属性取值下的类别取值计算);
(3)计算各个属性的信息增益Gain(Ai)=Info(D)-Info(Ai);
(4)计算各个属性的分类信息度量H(Ai)(以属性取值计算);
(5)计算各个属性的信息增益率IGR(Ai)=Gain(Ai)/H(Ai)。
End While
依据表2数据集,通过以上算法流程执行第1次循环得到结果见表3。
算法取信息增益率IGR(A)值最大(0.026 93)的指标项“投保数量趋势”作为初始分裂属性。如此循环执行C4.5算法,不断分裂,直至所有节点均为叶子节点(图1)。
通过对表2数据集(共计8个分类,424个属性值)执行决策树算法,可以最少分裂2次、最多分裂4次找到叶子结点(结点属性值对应所有结果值均相同),时间可以忽略,算法可以很快依据评价指标分类出需要重点研究的农险险种,符合预期目标。
4结论
决策树方法只需要预先确定样本数据集,然后依赖数据学习得到决策树,并用定量规则方式表达所获取的知识,应用于农业保险险种可持续发展性评价,即只需要选取合适的险种指标基础数据(相应指标的保险业务数据)并依据评价规则计算得到分类结果。依据农业保险业务发展情况对保费趋势、投保数量趋势、投保户次趋势、赔付金额趋势、赔付户次趋势、赔付数量趋势以及赔付率波动属性设定评价方法,通过采用决策树C4.5算法进行险种业务发展情况的快速结果分类处理,该方法不仅可以有效避免主观判断和经验知识的不足,且有利于随着保险业务的推进快速更新评价数据,为有效分类出重点农业险种研究对象、开展可持续性研究提供了一种思路和方法。但其应用有一定局限性,即农业保险受“政策”影响较大,并非完全市场运营机制,这在政策性农业保险发展初始期难以避免。随着我国社会经济的不断发展,农业保险发展日渐成熟,“政策”对农业保险市场的影响将逐渐淡化。加之保险业务发展评价方法的不断完善,决策树算法的逐步改进将对数据的分析结果更趋于高效性与合理性。
参考文献
[1]李飞,齐林.基于决策树C4.5算法的大数据保险业模型研究[J].财政与金融, 2017(2):71-73.
[2] 司巧梅.基于决策树的农业气象灾害等级预测模型[J].安徽农业科学,2010,38(9):4925-4927.
[3] 纪思琪,吴芳,李乃祥.基于决策树的蔬菜病害静态预警模型[J].天津农学院学报,2017,24(2):77-80.
[4] 曹波.新疆农业保险运行效率评价:基于五个试点地区的实证分析[D].乌鲁木齐:新疆农业大学,2016.
[5] 庹国柱.试论农业保险创新及其深化[J].农村金融研究,2018(6):9-13.
[6] 高岑.国外典型农业再保险发展模式分析及其启示[J].农村经济与科技, 2019,30(2):212-214.
[7] 赵红.我国农业保险标准化绩效评价研究[D].济南:山东大学,2015.
[8] 林乐芬,李远孝.高效种植农业保险绩效评价及影响因素分析:以江苏省为例[J].烟台大学学报(哲学社会科学版), 2018,31(5):98-109.
[9] 马伟杰.基于C4.5决策树算法的网络学习行为研究[J].科学导刊,2016(23):150-151.
[10] 任周桥,刘耀林,焦利民.基于决策树的土地适宜性评价[J].国土资源科技管理,2007,24(3):21-25.
转载注明来源:https://www.xzbu.com/1/view-15141574.htm