朴素贝叶斯分类算法的设计与分析
来源:用户上传
作者:
摘要:随着信息技术的日益发展,特别是信息技术应用的日渐普及,电子文本信息数量急剧增加。如何对这些文本数据做有效的管理和高效的利用是目前信息技术领域所面临的一项重大挑战。文本分类是目前对电子文本进行管理的一种常用方法和是基本步骤。目前在信息过滤、信息检索、数字图书馆等方面对文本分类是应用非常广泛,同时需求也在与日俱增。贝叶斯分类算法,由于有贝叶斯理论作为理论支撑,分类过程可追溯,具有诸多优点,被众多文本处理专家所喜爱。基于贝叶斯方法的分类器的研究和应用,目前已经是模式识别和数据挖掘等领域的研究热点。本文主要是对贝叶斯分类模型进行了分析与实现。
关键词:文本挖掘;文本分类;概率分布;贝叶斯分类;分析与实现
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2019)11-0206-03
1 引言
文本分类技术的研究目标就是实现自动化的文本分类,用来到降低分类成本、改善分类效率等目的。作为信息检索和文本信息管理的技术基础,文本分类技术有着非常广泛的应用前景。
2 国内外研究现状
国内文本分类的起步可以认为是在1981年,由侯汉清首先对计算机在文献分类工作中应用作了探讨。国内的主流高校包括清华大学在内的多个重点高校都在从事该领域的研究,目前已经进入到自动化分类阶段,其中中科院开发的智多星中文文本分类器是目前来说比较好用的中文文本分类器。
朴素贝叶斯分类器是目前公认的一种简单有效的概率分类方法,在某些领域中表现出很好的性能。在朴素贝叶斯分类方法中,有一个“独立性假设”:即实例的属性之间是相互独立的。在这个独立性假设,使得朴素贝叶斯方法特别适合处理属性个数很多的任务,而文本分类恰恰就是属于这种多属性的分类任务。Friedman等人提出了一种新的树状结构模型TAN(Tree Augmented Naive),其基本思路是通过对素贝叶斯中的独立性假设条件进行放松,借鉴贝叶斯网中表示依赖关系的方法扩展朴素贝叶斯的结构,使得能够存在属性间的依赖关系,但对其表示依赖关系的能力进行限制,使学习模型成为可能。
3 算法主要简介
3.1思想简介
朴素贝叶斯法(Naive Bayesian Model,NBM)是基于贝叶斯定理与特征条件独立假设的分类模型方法,和决策树模型相比,朴素贝叶斯分类器有着坚实的数学理论基础和比较稳定的分类效率。其分类过程如下:
(1)将每一个数据样本用一个n维特征向量d={x1,x2,...,xn}表示,分别是n个属性d1,d2,...,dn样本的n个度量值。
3.3.5结果输出
代码结果的输出主要是通过java集合Collections自带的sort方法,对得到的结果进行排序,比较各个结果的大小,并对其进行排序,选择可能性最大的类别进行输出。由于贝叶斯算法的是根据概率的可能性大小来选择所属类别,根据贝叶斯算法得到的分类结果不一定是正确分类,只是可能性最大的分类。
4 总结
简单的贝叶斯分类采用简单的贝叶斯假设,即假设一组数据中任何两个数据之间的出现概率计算都是相互独立。简单贝叶斯模型在实际应用中,不仅对贝叶斯网络构建的复杂性以指数级的速度降低,同时在诸多领域,在不同于假定条件的情况下,简单贝叶斯分类算法也有着极强的鲁棒性和高效性。
本文细致分析了贝叶斯在文本分类中的应用,分析了贝叶斯分类的数学模型,以及其中涉及到的关键算法都做了详细分析,完成了贝叶斯文本分类的系统的设计与实现。但是由于时间有限,分类系统还存在有缺陷,例如本系统的文本分类不支持多分类功能,这部分功能在今后的工作中将对其进行持续性的改进。
参考文献:
[1]王双成,苑森森.具有丢失数据的贝叶斯网络结构学习研究[J].软件学报,2004,15(7):1042-1048.
[2]黄解军,万幼川,潘和平.贝叶斯网络结构学习及其应用研究[J].武汉大学学报(信息科学版),2004,29(4):315-318.
[3]陈剑敏.基于Bayes方法的文本分类器的研究与实现[J].重庆大学,2007.
[4]于瑞萍.中文文本分类相关算法的研究与实现[J].西北大学,2007.
[5] 王双成.混合贝叶斯网络隐藏变量学习研究[J].计算机学报,2005,28(9):1564-1569.
[6] 邢永康,马小平.统计语言模型综述[J].计算机科学,2003,30(9):22-26.
[7] 张晓引,岳丽华.改进的 Native Bayes方法[J].中国科学技术大学学报,1999,29(1).
[8]庞剑峰.基于向量空间模型的自反馈的文本分类系统的研究和实现[J].中国科学院, 2001.
[9]鲁晨光.广义信息论研究[M].合肥:中国科技大学出版社,1993.
[10]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2001.
[11]黄营著,吴立德,石崎洋之等.独立于语种的文本分类方法[J].中文信息学报,2010,14(6):1-7.
[12]卜东波,白硕,李国杰.聚类/分类中的粒度原理[J].计算机学报,2002,25(8):810-816.
[13]李榮陆.文本分类及其相关技术研究[J].上海复旦大学,2004,4.
[14]边肇棋,张学工.模式识别(第二版)[M].北京清华大学出版社,2000.
[15]李东,张湘辉.中文软件汉语分词研究与应用[R].微软中国研究开发中心,2002.
【通联编辑:梁书】
转载注明来源:https://www.xzbu.com/8/view-14769819.htm