基于模糊聚类分析的税务决策支持系统的研究
来源:用户上传
作者: 杨文君
[摘要] 文章在分析数据挖掘技术的基础上,给出了模糊数据挖掘中基于聚类分析的算法以及详细的模糊聚类分析步骤,最后用一个具体实例证明了模糊聚类分析在税收决策支持系统中的应用价值。
[关键词] 税收决策支持系统数据挖掘模糊聚类分析
一、引言
在税收征集中,大量的数据存储在数据库中,如何在海量数据中提取出有用的信息供决策机构作为参考,是我们需要解决非的问题。得用数据挖掘技术实现的税收决策支持系统为我们提供了一个解决方法。
税收决策支持系统是指在一定的经济理论指导下,根据经济和税收统计资料,在定性分析基础上,运用定量方法,对未来税收收入总量和结构等发展趋势所做出的分析、判断和推测。
一般说来,数据挖掘(DM)是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。
数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的信息或知识的过程,目的是帮助分析人员寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为是十分有用的。聚类就是将数据对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。
然而单纯的数据挖掘中的聚类可能会导致“尖锐边界”等问题, 因此考虑将模糊逻辑和数据挖掘结合起来的模糊数据挖掘技术引入到税收收入预测系统中。
二、模糊聚类分析技术
模糊聚类分析就是把模糊数学的概念引入聚类分析中,以用来研究“物以类聚”的一种多元统计分析方法,即用数学方法把原来样品之间模糊关系定量地确定关系,从而客观地进行分型划类,以便对未来事物的发生状态做出预测。
传统的聚类分析把每个样本严格地划分到某一类,属于硬划分的范畴,它把每个待辨识的对象严格地划分到某个类中,具有非此即彼的性质,因此这种分类的类别界限是分明的。而实际上大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性,适合进行软划分。模糊集理论为这种软划分提供了有力的分析工具,人们开始用模糊的方法来处理聚类问题,并称之为模糊聚类分析。在模糊聚类中,每个样本不再仅属于某一类,而是以一定的隶属度分别属于每一类。由于模糊聚类得到了样本属于各个类别的不确定性程度,表达了样本类属的中介性,即建立起了样本对于类别的不确定性的描述,能更客观地反映现实世界,从而成为聚类分析研究的主流。
利用模糊划分的概念人们提出了许多种聚类方法,比较典型的有:基于相似性关系和模糊关系的方法(包括聚合法和分裂法),基于模糊等价关系的传递闭包方法,基于模糊图论最大树方法,以及基于数据集的凸分解、动态规划和难以辨识关系等方法。这些聚类方法把模糊理论和数据挖掘技术中的聚类分析结合起来,已经很好地在很多领域得到了广泛应用。
三、基于模糊等价关系的聚类分析
1.确定模糊集:
建立样本特性指标矩阵设聚类的对象的全体集合X={x1,x2,…,xn},为了使分类效果科学合理,我们首先要选取具有实际意义且有较强分辨性和代表性的统计指标。现假设X中每一个元素Xj(j=1,2,…,n)有m个统计指标Xij=(x1j,x2j,…xmj),其中,分量Xij表示第j个元素的第i项统计指标值(i=1,2,…,m;j=1,2,…,n)。本步骤的关键是统计指标值的求法。统计指标值反映实际的精确程度,是取得最优聚类的先决条件,由于各企业的实际情况不一样,所选取的统计指标也应各不相同。因此,统计指标值的求法因实际问题而定。
2.对样本特性指标矩阵进行数据规格化
在实际问题中,通常不同的数据有不同的量纲。因此,需要根据模糊矩阵的要求,进行标准化处理。一般可通过以下变换来实现:
(1)平移/标准差变换
其中,
(2)平移/极差变换
显然有0≤Xnij≤1,而且也消除了量纲的影响。
3.标定――建立模糊相似矩阵
所谓标定,是指根据实际情况,选用一定的方法对对象进行比较得出模糊相似矩阵。根据上述已建立的指标体系Xj(j=1,2,…,n),求出相似系数rij,rij表示Xi与Xj按m个特征相似的程度,得到模糊相似矩阵R=(rij)m×n
本步骤的关键是如何合理的求出相似系数rij,由于求相似系数的方法很多,而且需要因实际情况不同而选用不同的方法。
求相似系数的方法很多,主要有最大最小法、算术平均值最小法、几何平均值最小法、相关系数法、夹角余弦法、距离法、数量积法、绝对值指数法、绝对值倒数法、绝对值减数法等方法。
对于一些实际问题,很难用解析表达式来刻画事务间的相关程度,这时只有请有经验者或专家评分,用[0,1]上的数表示。选取什么样的方法描述两个元素之间的相似程度,将直接影响分类的效果。通常是同时选三四种,最后看分类与实际吻合的情况,择优选取。
4.求传递闭包――构造模糊等价矩阵
用传递闭包法求R的模糊等价矩阵。传递闭包是包含R的最小传递矩阵,设t(R)是R的传递闭包,通常采用平方法求R的传递闭包,即R→R2→R4→R8→L→R2k经有限次运算后,一定有R2k=R2k+1,于是 t(R)=R2k
5.选取分类水平λ,看模糊截矩阵,确定聚类结果
构造了模糊等价矩阵后就可以按 R 的λ截关系对其进行聚类,对于不同的λ截矩阵,分类结果不同,也具有不同的实际意义和经济意义,从中可判断出与实际最接近的分类方案。
6.预测,
首先对于在聚类分析中得到的每一个模式按照下式求得模式的平均指标。
其中s表示所有模式数,k表示该模式由数据仓库中哪几条记录推出,p表示推出该模式的记录总数。
对于待预测的样本Y是该样本在论域X上的n个模糊子集,与数据仓库中分类的模式做比较,求出它们的贴近度:
根据择近原则,判断该样本接近哪个模式, 从这个模式的整体情况预测其发展结果。
四、税务决策支技系统中的应用实例
根据以上步骤,我们首先假设某税务系统数据仓库中有这样一个数据表:
其中时间粒度分为三层:年、季、月;征收机关分为四层:省局、地市局、区县局、乡镇局;经济类型为两层:内资企业和国有企业;行业类型分为两层:工业和服务业。在实际应用时,经常会遇到这样的问题:某段时间、某征收机关、某经济类型、某行业类型的实缴税款状况处于什么水平?某段时间、某征收机关、某经济类型、某行业类型是数据仓库中一些已知的数据, 而实缴税款的水平则是一个模糊变量(实缴税款的水平是中等、较差还是较好),它的值需要我们使用模糊数据挖掘算法得到。
从中我们得到模糊关系:
对其按上文中改选方法改造,,得到模糊相似关系:
对其聚类分析,采用闭包法,当
因此可分为两类,即{x1,x3,x4,x5}和{x2},这样一来,在税务管理中就可以预测每一类对象的税收情况。
五、结束语
数据挖掘技术是一门新兴的决策分析方法,该方法通过使用人工智能、机器学习、统计学、数据库技术等方法,从大量数据中提取出隐含的、潜在的、以前未知的有用信息或模式,来辅助决策者进行决策。现在利用数据挖掘技术对税收收入进行预测已经成为必然的趋势,在税收分析过程中充分利用数据挖掘技术,合理划分不同的纳税人群,这样不但可以促进税收分析工作水平的提高,也可以给管理者提供决策依据,从而带动税收工作整体水平的提升。本文利用模糊数据挖掘中的聚类分析技术在税务系统海量数据中挖掘出有用信息,从而帮助决策者做出决策。
参考文献:
[1]Mehmed Kantardzic. 闪四清等译.数据挖掘:概念、模型、方法和算法.北京:清华大学出版社,2003
[2]Jiawei Han, Micheline Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann Publishers. 2001
[3]国税总局信息中心,国家祝务总局税务宏观决策支持系统概要设计说明书,2005,2;35.-47 0
[4]马军邵陆:模糊聚类计算的最佳算法,软件学报,12卷4期,2001
[5]高洪深:决策支持系统(DSS)理论#方法#案例[M].北京:清华大学出版社,2000
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
转载注明来源:https://www.xzbu.com/3/view-1501546.htm